- Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.5]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。 我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。 提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (Wed, 22 Nov 2023 06:46:37 GMT) - Vicuna-7Bを拡張する形式のMLLM、データを自前で集めている点はすごい、こちらLLaVARを上回る性能。
タグ: マルチモーダル
DocPedia
- DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [98.4]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。 既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (Mon, 20 Nov 2023 14:42:25 GMT) - 「 DocPedia directly processes visual input in the frequency domain rather than the pixel space.」というのが特徴的な文章理解モデル。DCT → Frequency Adapter → …と興味深いブロック図になっている。。。
- LLaVARやmPLUG-Owlに比べて性能は高いがsupervisedなSOTAとは距離がある。
LLaVA-Plus
- LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents [112.4]
LLaVA-Plusは、大規模マルチモーダルモデルの能力を拡張した汎用マルチモーダルアシスタントである。 事前訓練されたビジョンとビジョン言語モデルのスキルリポジトリを保持しており、ユーザの入力に基づいて関連するツールをアクティベートすることができる。
論文 参考訳(メタデータ) (Thu, 9 Nov 2023 15:22:26 GMT) - 大規模マルチモーダルモデル LLaVA-Plus (Large Language and Vision Assistants that Plug and Learn to Use Skills)の提案。性能はLLaVAを上回る。
- リポジトリはLLaVA-Plus (llava-vl.github.io)
mPLUG-Owl2
- mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration [68.4]
mPLUG-Owl2は多目的なマルチモーダル言語モデルである。 効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
論文 参考訳(メタデータ) (Tue, 7 Nov 2023 14:21:29 GMT) - DAMO AcademyのMLLM(multi-modal large language model)
- mPLUG-Owl/mPLUG-Owl2 at main · X-PLUG/mPLUG-Owl · GitHub
LLaVA-Interactive
- LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing [99.8]
本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。 LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
論文 参考訳(メタデータ) (Wed, 1 Nov 2023 15:13:43 GMT) - オープンソースな画像対応対話デモ環境、 LLaVA(visual chat), SEEM(interactive image segmentation),GLIGEN (grounded image generation and editing)の組み合わせ
- リポジトリはLLaVA-Interactive (llava-vl.github.io)、GitHub – LLaVA-VL/LLaVA-Interactive-Demo: LLaVA-Interactive-Demo
Myriad: multi-modal model by applying vision experts for industrial anomaly detection
- Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [82.2]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。 具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。 視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文 参考訳(メタデータ) (Sun, 29 Oct 2023 16:49:45 GMT) - たまに思う略称が厳しい感じの報告、multi-modal model by applying vision experts for industrial anomaly detectionとのこと…
- 成果は「Experiments show that our proposed Myriad not only achieves superior performance than both vision experts and state-of-the-art methods, but also provide detailed description for industrial anomaly detection.」で異常検知時に説明が出るのは重要。
- リポジトリはGitHub – tzjtatata/Myriad: Open-sourced codes, IAD vision-language datasets and pre-trained checkpoints for Myriad.
MathVista
- MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.0]
大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。 MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。 MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
論文 参考訳(メタデータ) (Tue, 3 Oct 2023 17:57:24 GMT) - 視覚情報を含む数学的推論能力のベンチマーク。FQA:figure question answering、GPS: geometry problem solving、MWP:math word problem、TQA: textbook question answering、VQA: visual question answeringで構成される。
- 現時点ではMultimodal Bardが最も高いスコアを達成とのこと(GPT-4Vとも一定程度比較は行っているようだが今後のアップデートに期待)いずれにしろ人間から比べるとだいぶ低いスコアで改善の余地は大きい。
- どうでもよいがLarge Language Models (LLMs) とLarge Multimodal Models (LMMs) がややこしい
- リポジトリはMathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Context
GPT-4V, LLaVA-1.5
GPT-4Vの登場でマルチモーダルモデルの活用が一気に進む感がある。さらにオープンな取り組みも進んでおり期待が大きい。
- The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.4]
大規模マルチモーダルモデル(LMM)は、より強力な汎用知性を達成するために、視覚的理解などの多感覚スキルを備えた大規模言語モデルを拡張する。 本稿では,GPT-4Vの能力の質と汎用性を調査するテストサンプルを含む,GPT-4Vが実行可能な興味深いタスクに焦点を当てた。 GPT-4Vの任意のインターリーブされたマルチモーダル入力処理における前例のない能力と、その能力の汎用性は、GPT-4Vを強力なマルチモーダルジェネラリストシステムにする。
論文 参考訳(メタデータ) (Fri, 29 Sep 2023 17:34:51 GMT) - GPT-4V(ision)のMSのよる評価。Visionの統合は自然な拡張であり、今までも研究され続けてきた分野ではあるが、GPT-4Vは強力なレベルになっているように見える。
- Improved Baselines with Visual Instruction Tuning [79.3]
LLaVAの完全接続型ビジョン指向クロスモーダルコネクタは驚くほど強力で,データ効率がよいことを示す。 11のベンチマークで最先端を達成するための、より強力なベースラインを確立します。 最後の13Bチェックポイントは1.2万の公開データのみを使用し、単一の8-A100ノードで1日でフルトレーニングを終えます。
論文 参考訳(メタデータ) (Thu, 5 Oct 2023 17:59:56 GMT) - OSSのマルチモーダルモデル、LLaVA-1.5の論文。多くのベンチマークでSoTAを主張。
- プロジェクトサイト、デモはLLaVA (llava-vl.github.io)、リポジトリはGitHub – haotian-liu/LLaVA: Visual Instruction Tuning: Large Language-and-Vision Assistant built towards multimodal GPT-4 level capabilities.
LLaVA-RLHF
- Aligning Large Multimodal Models with Factually Augmented RLHF [176.5]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「hallucination」をもたらす。 テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。 本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。 提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文 参考訳(メタデータ) (Mon, 25 Sep 2023 20:59:33 GMT) - マルチモーダルモデルに対するRLHFとしてFactually Augmented RLHF (Fact-RLHF) を提案。モデルが公開されているのが興味深くGPT-4V(GPT-4V(ision) system card (openai.com))と比較してみたところ。
- リポジトリはLLaVA-RLHF。モデルはzhiqings/LLaVA-RLHF-13b-v1.5-336 · Hugging Face( Apache License 2.0)など。
Kosmos-2.5
- Kosmos-2.5: A Multimodal Literate Model [143.5]
Kosmos-2.5はテキスト集約画像の機械読取のためのマルチモーダルリテラルモデルである。 2つの異なるが協調的な転写タスクに優れる。 テキスト集約的な画像理解タスクに対して異なるプロンプトで適応することができる。
論文 参考訳(メタデータ) (Wed, 20 Sep 2023 15:50:08 GMT) - Kosmosの新バージョン。コア部分はencoder-only/encoder-decoder model から decoder-only modelへ移行しており生成系AIのようなアーキテクチャになっている。商用製品を上回る性能とのこと。
- プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)