GPT-4V, LLaVA-1.5

    GPT-4Vの登場でマルチモーダルモデルの活用が一気に進む感がある。さらにオープンな取り組みも進んでおり期待が大きい。

    • The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.4]
      大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデルを拡張する。 本稿では,GPT-4Vの能力の質と汎用性を調査するテストサンプルを含む,GPT-4Vが実行可能な興味深いタスクに焦点を当てた。 GPT-4Vの任意のインターリーブされたマルチモーダル入力処理における前例のない能力と、その能力の汎用性は、GPT-4Vを強力なマルチモーダルジェネラリストシステムにする。
      論文  参考訳(メタデータ)   (Fri, 29 Sep 2023 17:34:51 GMT)
    • GPT-4V(ision)のMSのよる評価。Visionの統合は自然な拡張であり、今までも研究され続けてきた分野ではあるが、GPT-4Vは強力なレベルになっているように見える。

    LLaVA-RLHF

    • Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
      大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。 テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。 本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。 提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
      論文  参考訳(メタデータ)   (Mon, 25 Sep 2023 20:59:33 GMT)
    • マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V(GPT-4V(ision) system card (openai.com))と比較してみたところ。
    • リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face( Apache License 2.0)など。

    Kosmos-2.5

    • Kosmos-2.5: A Multimodal Literate Model [143.5]
      Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。 テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
      論文  参考訳(メタデータ)   (Wed, 20 Sep 2023 15:50:08 GMT)
    • Kosmosの新バージョン。コア部分はencoder-only/encoder-decoder model から decoder-only modelへ移行しており生成系AIのようなアーキテクチャになっている。商用製品を上回る性能とのこと。
    • プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

    LLASM: Large Language and Speech Model 

    MM-Vet

    • MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [121.5]
      複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。 近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
      論文  参考訳(メタデータ)   (Fri, 4 Aug 2023 17:59:47 GMT)
    • VLなLLMを前提としたマルチモーダルベンチマーク。画像に対する単純な質問というわけではなく複数の能力(例えば画像にある数字を読み取ったうえで計算しないといけない等)が必要なデータセットになっていてより困難。
    • リポジトリはGitHub – yuweihao/MM-Vet: MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

    Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

    • Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions [122.4]
      最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。 既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。 本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
      論文  参考訳(メタデータ)   (Thu, 10 Aug 2023 07:02:13 GMT)
    • 包括的なVision-Language instruction followingベンチマークる I4 (Interconnected, Interleaved Image-Text Instruction-Following)ベンチマークの構築と、CLORI(controllable knowledge re-injection)フレームワークの提案。これらを適用したCheetorは他のVLモデルと比べても優れた性能とのこと。
    • リポジトリはGitHub – DCDmllm/Cheetah

    UnIVAL

    • Unified Model for Image, Video, Audio and Language Tasks [94.8]
      UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。 本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。 統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
      論文  参考訳(メタデータ)   (Sun, 30 Jul 2023 09:48:36 GMT)
    • Image、Video、Audio、Languageとマルチモーダルなモデルの提案、「 0.25B parameter model achieves competitive performance to existing modality-customized work」とのことで小規模だが強力そう
    • リポジトリはGitHub – mshukor/UnIVAL: Official implementation of UnIVAL: Unified Model for Image, Video, Audio and Language Tasks.

    Dynalang

    • Learning to Model the World with Language [98.2]
      我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。 アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
      論文  参考訳(メタデータ)   (Mon, 31 Jul 2023 17:57:49 GMT)
    • エージェントが未来を予測すために言語を用い、タスクを解決する手法の提案。今現在を理解するために言語を用いるのではなく、将来予測にも使っている点が特徴的。
    • プロジェクトサイトはLearning to Model the World with Language (dynalang.github.io)

    How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges

    Med-PaLM Multimodal

    • Towards Generalist Biomedical AI [28.7]
      我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。 モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
      論文  参考訳(メタデータ)   (Wed, 26 Jul 2023 17:52:22 GMT)
    • マルチモーダルな医療用LLMの提案、PaLM-E を医療ドメインにfinetuning して構成。ベンチマーク結果はオリジナルのPaLM-Eより優れており、特化型モデルを超える例もあるとのこと。
    • パラメータサイズ12B、84B、562Bの比較もあるが、84B < 562Bが成り立たない例も多いのが興味深い。