- Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [31.0]
マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。 ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。 この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
論文 参考訳(メタデータ) (Thu, 20 Jun 2024 17:59:45 GMT) - MLLMでstep by stepに相当する処理を行うため仮想的なホワイトボードを使うという論文、「We accomplish this by generating code that can create a visual, then returning the visual back to the model for further reasoning.」という感じでコードを作成し画像でフィードバックするアプローチ。
- 有効な場面はありそう。名前のインパクトがすごい。
タグ: MLLM
OpenVLA
- OpenVLA: An Open-Source Vision-Language-Action Model [131.7]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。 モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 15:46:55 GMT) - オープンなVision-Language-Actionモデル、「Given an image observation and a language instruction, the model predicts 7-dimensional robot control actions.」という設定でベースはLlama-2。PEFTの効果など非常に参考なる。
- プロジェクトサイトはOpenVLA: An Open-Source Vision-Language-Action Model
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
- MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.5]
MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。 この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
論文 参考訳(メタデータ) (Wed, 12 Jun 2024 16:54:54 GMT) - 世界モデルとしてのMLLM(例えば物理現象をシミュレートできるか?など)を評価するためのベンチマーク。Leader boardからはGPT-4Vが首位でGeminiProが2位になっている。一方で「Even the best performer, GPT-4V, can only achieve a 52.30% overall accuracy, and four MLLMs particularly trained on videos perform worse than random chance.」という指摘も。MLLMないしビデオ合成系のモデルがWorld modelになりえるかは賛否両論あるが、注目を集めている分野。
- リポジトリはMMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos (mmworld-bench.github.io)
DeepStack
- DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs [137.9]
ほとんどの大きなマルチモーダルモデル(LMM)は、大きな言語モデル(LLM)の第1層にシーケンスとして視覚トークンを供給することによって実装される。 本稿では,LMMのための新しいアーキテクチャであるDeepStackについて述べる。LMMの言語層とビジョントランスフォーマーの$N$レイヤを考慮すると,視覚トークンを$N$グループに積み上げ,各グループを下位から上位までの整列トランスフォーマー層に供給する。 驚くべきことに、この単純な手法は、レイヤ間の視覚トークン間の相互作用をモデル化するLMMのパワーを、最小限のコストで大幅に向上させる。
論文 参考訳(メタデータ) (Thu, 06 Jun 2024 17:59:34 GMT) - Vision-Languageの構成で単純に第一層にVisionのデータを投入するのではなく、複数の層に情報を供給することで性能が高くなるとのこと。レイヤごとに解像度を変える戦略。TextVQA, DocVQA, InfoVQAでLLaVA 1.5を改善。
- リポジトリはDeepStack (deepstack-vl.github.io)
LLMs Meet Multimodal Generation and Editing: A Survey
- LLMs Meet Multimodal Generation and Editing: A Survey [89.8]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成について詳しく検討する。 具体的には,本研究で活用されている手法とマルチモーダルデータセットの背景にある重要な技術要素を網羅的に検討する。 最後に、AIの安全性の進歩について包括的に議論し、新興のアプリケーションと今後の展望について調査する。
論文 参考訳(メタデータ) (Wed, 29 May 2024 17:59:20 GMT) - 実用レベルのものが出ているマルチモーダルな生成に関するサーベイ。マルチモーダルエージェントまで含む広範な内容になっている。
- 論文リストはリポジトリになっている GitHub – YingqingHe/Awesome-LLMs-meet-Multimodal-Generation: 🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).
An Introduction to Vision-Language Modeling
- An Introduction to Vision-Language Modeling [128.6]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。 本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (Mon, 27 May 2024 15:01:23 GMT) - VLMのサーベイ、であり、教科書的な内容
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
- Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.1]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。 我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。 我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (Fri, 31 May 2024 17:59:47 GMT) - ビデオ解析を対象としたベンチマーク。900個、256時間の動画に対して2.7KのQAを人がのテーションしている。ドメインも様々(GitHub – BradyFU/Video-MME: ✨✨Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis)。
- 現時点のベンチマーク結果はGemini Proがもっともよく、Gemini Flash、GPT-4o、GPT-4Vが続いている。APIによって使えるデータ種類が異なるなど前提を合わせるのが難しい点に注意が必要。例えば「Since the video interface of GPT-4o has not been released yet, we sample 10 frames and evaluate the model using multiple images as input.」という注釈がある。
- リポジトリはVideo-MME: Welcome
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding
- ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.4]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。 タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。 ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (Tue, 21 May 2024 08:06:13 GMT) - Protein Language ModelとLLMの組み合わせ。珍しい(?)マルチモーダル。LLMにはFugu-MT 論文翻訳(概要): Galactica: A Large Language Model for Science (fugumt.com)を使い検証、効果を確認している。
- リポジトリはGitHub – acharkq/ProtT3: Source code for ACL 2024 paper: “ProtT3: Protein-to-Text Generation for Text-based Protein Understanding”
GPT-4o, Gemini Flash, Falcon-2
先週は大きな発表の多い週で、対応するモダリティが多く・性能が高く・推論速度が速く・安いGPT-4oの発表、扱えるコンテキスト長が長いGemini、非常に低価格で性能の良いGemini Flashの発表が大きなニュースだった。
Hello GPT-4o | OpenAI
Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra (blog.google)
Gemini Flash – Google DeepMind
全体的に正統な進化をしているとの印象ではあるが、OpenAIが圧倒的性能を持った時代が終わりつつあるのかなという印象がある(GPT-5の発表によって覆される可能性はあるが・・・)
気になっているのはコンテキスト キャッシュ ガイド | Google AI for Developers | Google for Developersの実装で、中身がSSM&状態を保存するようなものだと革新的(そうじゃないと思うけど)。そうでなくともRAGを終わらせる可能性のある機能として興味深い。
公開モデルとしてはFalcon 2が発表されたのも大きなニュースだった。多言語で選択肢が増えるのはありがたい。
Falcon 2: UAE’s Technology Innovation Institute Releases New AI Model Series, Outperforming Meta’s New Llama 3 | Technology Innovation Institute (tii.ae)
tiiuae/falcon-11B · Hugging Face
Many-Shot In-Context Learning in Multimodal Foundation Models
- Many-Shot In-Context Learning in Multimodal Foundation Models [4.8]
マルチモーダルファンデーションモデルの性能を,少数ショットから多ショットICLまで評価した。 マルチショットICLは、全データセットにわたる少数ショット(100例)のICLと比較して、大幅に改善される。 ゼロショットとマルチショットのICLでは,最大50のクエリでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (Thu, 16 May 2024 04:02:43 GMT) - MLLMの評価、評価対象にGPT-4oが入っているのが驚き、対応が速い。全般的にMany shotには効果があるよう。GPT-4oとGemini Proの比較ではGPT-4oが優位でないタスクも多い。また、ManyShotでの特性もかなり異なるようにみえるのが興味深い。
- リポジトリはGitHub – stanfordmlgroup/ManyICL