- Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.7]
Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。 我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (Thu, 06 Feb 2025 18:59:55 GMT) - MLLMの公開モデル、既存の同規模のモデルと比較して性能が高く、マルチモーダルさも大きい(この論文ではOmni Modalと表現)
- プロジェクトサイトはOla、モデルはTHUdyh/Ola-7b · Hugging Face
タグ: MLLM
Benchmarking Large and Small MLLMs
- Benchmarking Large and Small MLLMs [71.8]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。 しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。 LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文 参考訳(メタデータ) (Sat, 04 Jan 2025 07:44:49 GMT) - MLLMの包括的評価。
- 「GPT-4o establishes a new standard for multimodal understanding and reasoning across diverse input types, setting a benchmark in versatility and cognitive capacity.」のほか、「Although LLaVA-NeXT and Phi-3-Vision excel in specialized recognition tasks, they exhibit limitations in advanced reasoning and temporal sequence processing.」とのこと。
- MSの調査でもあり、Phi4でのアップデートにも期待。microsoft/phi-4 · Hugging Face
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
- LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。 マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。 第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。 第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (Fri, 10 Jan 2025 18:59:51 GMT) - マルチステップなVisual reasoningタスクのベンチマークVisual Reasoning-Chain (VRCBench)の提案とcurriculum learningを通してLlama-3.2-11B-Vision-Instruct を強化したモデルの構築。omkarthawakar/LlamaV-o1 · Hugging Face
- 商用モデルに近い性能を発揮。
- プロジェクトサイトはLlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
- Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。 セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。 本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文 参考訳(メタデータ) (Tue, 07 Jan 2025 18:58:54 GMT) - 「By leveraging the knowledge from both LLaVA and SAM-2, our model has strong capabilities in both mask and language generation.」とのこと。なるほど、という感じ。
- リポジトリはSa2VA
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
- Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.2]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。 異なる言語群に対する学習がいかに異なるかを検討する。 私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (Thu, 09 Jan 2025 10:26:14 GMT) - Large Vision-Language Modelにおける多言語化の検証、英語のパフォーマンスを低下させることなく対応可能な言語数などに焦点を当てている。「our analysis reveals that one can (i) include as many as 100 training languages simultaneously (ii) with as little as 25-50% of non-English data, to greatly improve multilingual performance while retaining strong English performance. We further find that (iii) including non-English OCR data in pre-training and instruction-tuning is paramount for improving multilingual text-in-image understanding.」は興味深い結果。LLaVAアーキテクチャ、2.8BのPhi3.5、Llama 3 8Bでの検証。
- その後、「After benchmarking different 7-9B parameter LLMs, we find that Aya-Expanse and Qwen 2.5 give the overall best results.」の結果、Aya-ExpanseとQwen 2.5を用いてモデル構築を行っている。
- リポジトリはCenturio: On Drivers of Multilingual Ability of Large Vision-Language Model
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
- VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [104.4]
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。 提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。 画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
論文 参考訳(メタデータ) (Fri, 03 Jan 2025 18:59:52 GMT) - VisionとSpeechに対応したマルチモーダルな対話モデル構築のため、3段階での学習方法を提案。「The input side consists of vision and audio encoders, along with their adapters connected to a LLM. The output side has an end-to-end speech generation module, rather than directly using an external TTS model as the initial VITA-1.0 version」というアーキテクチャ。性能は公開モデルや商用モデルと競合するレベル。
- リポジトリはGitHub – VITA-MLLM/VITA: ✨✨VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
Virgo: A Preliminary Exploration on Reproducing o1-like MLLM
- Virgo: A Preliminary Exploration on Reproducing o1-like MLLM [89.5]
スロー思考推論システムは、推論中の思考時間をスケールすることで、広く注目を集めている。 マルチモーダル大規模言語モデル(MLLM)への適応にも関心が高まっている。 本稿では,少量のテキスト長文思考データを用いて,有能なMLLMを微調整することで,簡単なアプローチを探索する。 自然言語で表現されたこれらの長文推論プロセスは,MLLMに効果的に転送できることがわかった。
論文 参考訳(メタデータ) (Fri, 03 Jan 2025 17:14:16 GMT) - o1-likeな推論に時間をかけるアプローチがMLLMにおいても有効であるとの報告。それはそうなんだろうと思うが、猛追という感じ。
- リポジトリはGitHub – RUCAIBox/Virgo: Official code of *Virgo: A Preliminary Exploration on Reproducing o1-like MLLM*
DeepSeek v3, QVQ-72B-Preview, YuLan-Mini
公開モデルも高性能化が続いている。DeepSeek v3は671Bと非常に大きなモデル(だが、アクティブパラメータは37BのMoE)でGPT-4oやClaude 3.5 Sonnet競合を主張。 GitHub – deepseek-ai/DeepSeek-V3
QVQ-72B-PreviewはQwen 2.5, Qwen 2 VL, GRIN-MoE, Pixtral – arXiv最新論文の紹介のQwen2 VLから推論能力を強化、GPT-4oだけでなくタスクによってはOpenAI o1と競合する性能を主張。QVQ: To See the World with Wisdom | Qwen
YuLan-Miniは2.42B、1.08Tトークンでのトレーニングと比較的小規模だが、競合する公開モデルを上回る性能を主張。YuLan-Mini/README_ja.md at main · RUC-GSAI/YuLan-Mini · GitHub
中国の研究機関はモデルや手法をかなり公開してくれている印象。非常にありがたい。
- YuLan-Mini: An Open Data-efficient Language Model [111.0]
2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。 注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
論文 参考訳(メタデータ) (Mon, 23 Dec 2024 17:47:53 GMT) - 「Our approach includes three major contributions to enhance training efficacy: (1) an elaborately designed data pipeline that combines data cleaning with data schedule strategies; (2) a systematic optimization method that can effectively mitigate training instability; (3) an effective annealing approach that integrate targeted data selection and long context training.」とのこと。
- DeepSeek-V3 Technical Report [147.2]
We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token。 我々は14.8兆の多様性と高品質のトークンでDeepSeek-V3を事前訓練し、その後にSupervised Fine-Tuning and Reinforcement Learningのステージを受講した。 包括的な評価によると、DeepSeek-V3は他のオープンソースモデルよりも優れており、主要なクローズドソースモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (Fri, 27 Dec 2024 04:03:16 GMT) - 「During the pre-training stage, training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours, i.e., 3.7 days on our cluster with 2048 H800 GPUs. Consequently, our pretraining stage is completed in less than two months and costs 2664K GPU hours. Combined with 119K GPU hours for the context length extension and 5K GPU hours for post-training, DeepSeek-V3 costs only 2.788M GPU hours for its full training. Assuming the rental price of the H800 GPU is $2 per GPU hour, our total training costs amount to only $5.576M.」ととてもコストパフォーマンスが良い。もっとも「Note that the aforementioned costs include only the official training of DeepSeek-V3, excluding the costs associated with prior research and ablation experiments on architectures, algorithms, or data.」
- Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code [123.7]
本稿では,英語,フィンランド語,ヒンディー語,日本語,ベトナム語,コードに基づく15Bパラメータの多言語オープンソースモデルであるAurora-Mを提案する。 これは、人間がレビューした安全命令を微調整した初めてのオープンソース多言語モデルである。 我々はAurora-Mを幅広いタスクや言語で評価し、破滅的な忘れ物に対する頑健さを示した。
論文 参考訳(メタデータ) (Fri, 27 Dec 2024 03:53:21 GMT) - aurora-m/aurora-m-biden-harris-redteamed · Hugging Face こういったモデルも存在。対応言語に日本語が明記されている。
Combating Multimodal LLM Hallucination via Bottom-up Holistic Reasoning
- Combating Multimodal LLM Hallucination via Bottom-up Holistic Reasoning [151.4]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。 本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。 本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (Sun, 15 Dec 2024 09:10:46 GMT) - MLLM、VQAタスクを対象としたハルシネーション対策、1. Target Identification and Visual Perception, 2. Visual Perception Verification, 3. Question Validation and Adjustment, 4. Commonsense Induction, 5. Commonsense Verification, 6. Question answeringというモジュールで構成。
VISA: Retrieval Augmented Generation with Visual Source Attribution
- VISA: Retrieval Augmented Generation with Visual Source Attribution [100.8]
RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。 本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。 本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
論文 参考訳(メタデータ) (Thu, 19 Dec 2024 02:17:35 GMT) - 回答の根拠として文書内にバウンディングボックスを提示するRetrieval-Augmented Generation with Visual Source Attribution (VISA)の提案
- 現実的で重要なタスク。コードやデータセットなど公開予定とのこと。