BytedanceのSeek 1.5 VL、AlibabaのQwen3, XiaomiのMiMo、MiniMaxのMiniMaz-Speechと先週は中国の研究機関からの論文公開が多かった。また、CohereのAya Vision、SalesforceのBLIP3-o論文の公開もあり、LLM、MLLM関連はOpenAI一強という状態ではなくなっている。著者リストを見ると有力な研究者が複数所属する大規模なチームでモデル構築を行っているように見える。
- Seed1.5-VL Technical Report [237.8]
Seed1.5-VLは、汎用マルチモーダル理解と推論を促進するために設計されたビジョン言語基盤モデルである。 幅広いパブリックなVLMベンチマークと内部評価スイートで強力なパフォーマンスを提供する。 GUI制御やゲームプレイといったエージェント中心のタスクでは、Seed1.5-VLはOpenAI CUAやClaude 3.7など、主要なマルチモーダルシステムより優れている。
論文 参考訳(メタデータ) (Sun, 11 May 2025 17:28:30 GMT) - 「Despite its relatively compact architecture, it delivers strong performance across a wide spectrum of public VLM benchmarks and internal evaluation suites, achieving the state-of-the-art performance on 38 out of 60 public benchmarks. Moreover, in agent-centric tasks such as GUI control and gameplay, Seed1.5-VL outperforms leading multimodal systems, including OpenAI CUA and Claude 3.7.」を主張するMLLM
- Qwen3 Technical Report [138.0]
Qwenモデルファミリの最新バージョンであるQwen3を紹介します。 Qwen3は、性能、効率、多言語機能を向上させるために設計された一連の大規模言語モデル(LLM)から構成されている。
論文 参考訳(メタデータ) (Wed, 14 May 2025 13:41:34 GMT) - Qwen(Qwen3, Phi-4 reasoning, MiMo 7B, OLMo2 1B, Mellum 4B – arXiv最新論文の紹介)に関してarXivに投稿された論文
- リポジトリはGitHub – QwenLM/Qwen3: Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud.
- MiMo: Unlocking the Reasoning Potential of Language Model — From Pretraining to Posttraining [66.1]
提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。 MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。 最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (Mon, 12 May 2025 14:30:11 GMT) - リポジトリはGitHub – XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining
- Aya Vision: Advancing the Frontier of Multilingual Multimodality [16.0]
高品質で多様な多言語マルチモーダル命令データをキュレートする合成アノテーションフレームワークを開発した。 また,破滅的忘れを緩和するクロスモーダルモデルマージ手法を提案する。 我々の研究は、マルチモーダルフロンティアにおける多言語的な進歩を前進させ、計算の必要性を効果的に曲げる技術に関する洞察を提供する。
論文 参考訳(メタデータ) (Tue, 13 May 2025 17:03:48 GMT) - リポジトリはCohere Labs Aya Vision – a CohereLabs Collection
- BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.2]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。 画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。 革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (Wed, 14 May 2025 17:11:07 GMT) - リポジトリはGitHub – JiuhaiChen/BLIP3o、BLIP3o/BLIP3o-Model · Hugging Face