MM-LLMs: Recent Advances in MultiModal Large Language Models

  • MM-LLMs: Recent Advances in MultiModal Large Language Models [51.5]
    過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。 MM-LLMのさらなる研究を促進するための総合的な調査を行う。
    論文  参考訳(メタデータ)   (Thu, 25 Jan 2024 03:46:15 GMT)
  • マルチモーダルLLMのサーベイ
  • SOTA-LLM、ベンチマーク結果表などとてもありがたい、一方ですぐ情報がアップデートされるのだろうなとも。。。
  • プロジェクトサイトはhttps://mm-llms.github.io/とのことだが現状404

SynCDR

  • SynCDR : Training Cross Domain Retrieval Models with Synthetic Data [90.5]
    クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。 本稿では、これらの欠落したカテゴリの例をドメイン間で補うために合成データを生成するための簡単な解を提案する。 我々は、この翻訳のために訓練された2つのドメインと、プロンプトを介して大規模に訓練されたテキストから画像への拡散モデルを使用するドメインを比較した。
    論文  参考訳(メタデータ)   (Sun, 31 Dec 2023 08:06:53 GMT)
  • クロスドメイン検索へのデータ合成の応用
  • リポジトリはsamarth4149/SynCDR: Code for SynCDR (github.com)

UniHuman

  • UniHuman: A Unified Model for Editing Human Images in the Wild [52.4]
    実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。 モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。 ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
    論文  参考訳(メタデータ)   (Fri, 22 Dec 2023 05:00:30 GMT)
  • 人間の画像を編集するためのモデルの提案、Adobeがかかわっており、「 we curated 400K high-quality image-text pairs for training and collected 2K human image pairs for out-of-domain testing.」はさすが。

ChartAssisstant

  • ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.9]
    ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。 タスク固有の微調整なしで、様々なチャートタスク間の競争性能を達成する。 その結果、OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り、最先端のUniChart法よりも大きな性能向上を示した。
    論文  参考訳(メタデータ)   (Thu, 4 Jan 2024 17:51:48 GMT)
  • こちらはチャートを扱える(Vision-Languageでチャートに特化した)マルチモーダルなLLM。特化しているからかGPT-4VやBardを大きく上回る性能。
  • リポジトリはhttps://github.com/OpenGVLab/ChartAstとのことだが現時点では404。データセットを作っているのも大きな貢献だと思うので公開されるのが楽しみ。

DocLLM

  • DocLLM: A layout-aware generative language model for multimodal document understanding [12.1]
    本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。 本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。 我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
    論文  参考訳(メタデータ)   (Sun, 31 Dec 2023 22:37:52 GMT)
  • bounding boxの情報を組み込んだLLM、画像への拡張よりも効率的とのこと。実装上有用なアプローチに思える。著者がJPMorgan AI Researchというのも興味深い。
  • 「DocLLM is a multi-modal system that integrates lightweight visual information by utilizing the spatial positions and dimensions of text tokens obtained using OCR.」ということでbounding boxはOCRから得るのが前提ではあるが、テキストやブロック構造が得られる電子ファイルが使える場合はさらによく動きそう(非現実的な仮定でもない)。

Q-Align

  • Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels [95.4]
    スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。 提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Thu, 28 Dec 2023 16:10:25 GMT)
  • 品質評価のためのLarge Multi-modality Model、Stage 1: Training Human Ratersから始まっているのが面白い。複数のvisual assessing taskにおいてSoTAを主張。
  • リポジトリはQ-Future/Q-Align: [IQA, IAA, VQA] All-in-one LMM/MLLM for visual scoring. (github.com)

Generative Multimodal Models are In-Context Learners 

  • Generative Multimodal Models are In-Context Learners [62.3]
    我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
    論文  参考訳(メタデータ)   (Wed, 20 Dec 2023 18:59:58 GMT)
  • マルチモーダルな生成モデルでテキスト生成モデルと同様にICLが有効なEMU2に関する論文
  • リポジトリはGitHub – baaivision/Emu: Emu Series: Generative Multimodal Models from BAAI

SESAME: SEe, SAy, segMEnt

  • See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.4]
    この課題を解決するために,LMMのカスケードと共同学習手法を提案する。 得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
    論文  参考訳(メタデータ)   (Wed, 13 Dec 2023 18:58:04 GMT)
  • 微妙に間違ったクエリに対応可能なMLLMの提案、テニスの写真に対して「バスケットボール選手を見つけてと指示」したとき「テニス選手ならいます」と答えて船首部分をセグメンテーションすることが可能。
  • 「detecting the presence of objects (”see”), advising users about non-existent objects or modifying queries accordingly (“say”), and precisely segmenting objects that are actually present in the image (“segment”)」でSESAMEらしい

Multimodal Large Language Models: A Survey

  • Multimodal Large Language Models: A Survey [36.1]
    マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。 本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。 実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。 最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 05:15:12 GMT)
  • マルチモーダルな大規模言語モデルのサーベイ、いろいろあるなというのとテクニカルに重要なポイントがまとまっているのがうれしい。

Gemini

先週の大きな話題としてGeminiの発表があった。非常に性能の高いマルチモーダルなLLM
Google Japan Blog: 最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに (googleblog.com)

動画もテクニカルノート(gemini_1_report.pdf (storage.googleapis.com))の興味深いが、「We trained two versions of Nano, with 1.8B (Nano-1) and 3.25B (Nano-2) parameters, targeting low and high memory devices respectively.」という3B程度ではNano扱いというのもびっくり。BERT LARGEの10倍の規模なんだけど…と思うと進化の速さがよくわかる。