OneLLM

  • OneLLM: One Framework to Align All Modalities with Language [90.1]
    統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。 OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 18:59:19 GMT)
  • マルチモーダルなLLMの提案、image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activityとあまり見ないモーダルにも対応。Universal Encoder → Universal Projection Module → LLMなアーキテクチャでEncoderはFrozenとのこと。様々なベンチマークで高い性能を発揮。
  • リポジトリはGitHub – csuhan/OneLLM: OneLLM: One Framework to Align All Modalities with Language

mPLUG-PaperOwl

  • mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model [73.4]
    本研究はマルチモーダルLLMのマルチモーダルダイアグラム解析機能を強化することに焦点を当てる。 高品質な論文のLatexソースファイルを解析することにより、マルチモーダルなダイアグラム理解データセットM-Paperを慎重に構築する。 M-Paperは、画像やラテックス符号のフォーマットの数字や表を含む、複数の科学的図の合同理解をサポートする最初のデータセットである。
    論文  参考訳(メタデータ)   (Thu, 30 Nov 2023 04:43:26 GMT)
  • 学術論文の図表を含むドキュメントを読解するためのデータ・モデルの提案、latexが取れるというのも大きいのだろうけど、分野特化は非常に有効に見える
  • リポジトリはmPLUG-DocOwl/PaperOwl at main · X-PLUG/mPLUG-DocOwl · GitHub

Visual In-Context Prompting

  • Visual In-Context Prompting [100.9]
    本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。 エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。 広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 18:59:48 GMT)
  • Vision領域でのIn-context promptingを実現するモデルの提案。対象タスクはreferring segmentation、generic segmentation tasksとのこと。(テキスト領域で想像されるものとは異なるような・・・きもしなくもない)
  • リポジトリはGitHub – UX-Decoder/DINOv

TGDoc

  • Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.5]
    本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。 我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。 提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 06:46:37 GMT)
  • Vicuna-7Bを拡張する形式のMLLM、データを自前で集めている点はすごい、こちらLLaVARを上回る性能。

DocPedia

  • DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [98.4]
    本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。 既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
    論文  参考訳(メタデータ)   (Mon, 20 Nov 2023 14:42:25 GMT)
  • 「 DocPedia directly processes visual input in the frequency domain rather than the pixel space.」というのが特徴的な文章理解モデル。DCT → Frequency Adapter → …と興味深いブロック図になっている。。。
  • LLaVARやmPLUG-Owlに比べて性能は高いがsupervisedなSOTAとは距離がある。

LLaVA-Plus

  • LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents [112.4]
    LLaVA-Plusは、大規模マルチモーダルモデルの能力を拡張した汎用マルチモーダルアシスタントである。 事前訓練されたビジョンとビジョン言語モデルのスキルリポジトリを保持しており、ユーザの入力に基づいて関連するツールをアクティベートすることができる。
    論文  参考訳(メタデータ)   (Thu, 9 Nov 2023 15:22:26 GMT)
  • 大規模マルチモーダルモデル LLaVA-Plus (Large Language and Vision Assistants that Plug and Learn to Use Skills)の提案。性能はLLaVAを上回る。
  • リポジトリはLLaVA-Plus (llava-vl.github.io)

mPLUG-Owl2

  • mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration [68.4]
    mPLUG-Owl2は多目的なマルチモーダル言語モデルである。 効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
    論文  参考訳(メタデータ)   (Tue, 7 Nov 2023 14:21:29 GMT)
  •  DAMO AcademyのMLLM(multi-modal large language model)
  • mPLUG-Owl/mPLUG-Owl2 at main · X-PLUG/mPLUG-Owl · GitHub

LLaVA-Interactive

  • LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing [99.8]
    本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。 LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
    論文  参考訳(メタデータ)   (Wed, 1 Nov 2023 15:13:43 GMT)
  • オープンソースな画像対応対話デモ環境、 LLaVA(visual chat), SEEM(interactive image segmentation),GLIGEN (grounded image generation and editing)の組み合わせ
  • リポジトリはLLaVA-Interactive (llava-vl.github.io)、GitHub – LLaVA-VL/LLaVA-Interactive-Demo: LLaVA-Interactive-Demo

Myriad: multi-modal model by applying vision experts for industrial anomaly detection

  • Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [82.2]
    産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。 具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。 視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
    論文  参考訳(メタデータ)   (Sun, 29 Oct 2023 16:49:45 GMT)
  • たまに思う略称が厳しい感じの報告、multi-modal model by applying vision experts for industrial anomaly detectionとのこと…
  • 成果は「Experiments show that our proposed Myriad not only achieves superior performance than both vision experts and state-of-the-art methods, but also provide detailed description for industrial anomaly detection.」で異常検知時に説明が出るのは重要。
  • リポジトリはGitHub – tzjtatata/Myriad: Open-sourced codes, IAD vision-language datasets and pre-trained checkpoints for Myriad.

MathVista

  • MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.0]
    大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。 MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。 MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
    論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 17:57:24 GMT)
  • 視覚情報を含む数学的推論能力のベンチマーク。FQA:figure question answering、GPS: geometry problem solving、MWP:math word problem、TQA: textbook question answering、VQA: visual question answeringで構成される。 
  • 現時点ではMultimodal Bardが最も高いスコアを達成とのこと(GPT-4Vとも一定程度比較は行っているようだが今後のアップデートに期待)いずれにしろ人間から比べるとだいぶ低いスコアで改善の余地は大きい。
  • どうでもよいがLarge Language Models (LLMs) とLarge Multimodal Models (LMMs) がややこしい
  • リポジトリはMathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Context