先週は公開モデルの話題が多く、その中でもMiniMax-M2 とKimi-Linearは要注目。特に後者は効率性も高い。先週のRingとややこしいが、Ling-V2も強力なモデルである(This report focuses on three reflex-grade non-thinking (instruct) models in the Ling 2.0 family—Ling-mini-2.0, Ling-flash-2.0, and Ling-1T. These models emphasize general reasoning and instruction-following capability, while the Ring series (Ling-Team, 2025), built upon the same Ling 2.0 base, extends toward deep thinking models.とのこと)。また、小型モデルであるOuro-2.6B 、Ouro-2.6B-Thinkingも興味深かった。
上記とは異なるがマルチモーダルなEmu3.5、分類タスク(safety classification tasks)用のgpt-oss-safeguardなど強力なモデルが公開されるのは良いことだと思う。(最後の例は想定活用例が他とはだいぶ異なりそうではあるが。。)
- Kimi Linear: An Expressive, Efficient Attention Architecture [75.9]
Kimi Linearはハイブリッドな線形アテンションアーキテクチャで、初めて、公正な比較で完全にアテンションを上回ります。 中心となるKimi Delta Attention (KDA)は、Gated DeltaNetを拡張した表現力のある線形アテンションモジュールである。 我々は,Kimi Linearがより優れた性能と効率で十分な注意を払って,ドロップインで置き換えられることを示す。
論文 参考訳(メタデータ) (Thu, 30 Oct 2025 16:59:43 GMT) - 「At its core lies Kimi Delta Attention (KDA), a hardware-efficient linear attention module that extends Gated DeltaNet [111] with a finer-grained gating mechanism. While GDN, similar to Mamba2 [16], employs a coarse head-wise forget gate, KDA introduces a channel-wise variant in which each feature dimension maintains an independent forgetting rate, akin to Gated Linear Attention (GLA) [114]. This fine-grained design enables more precise regulation of the finite-state RNN memory, unlocking the potential of RNN-style models within hybrid architectures.」をハイブリッド構成で活用。
- GitHub – MoonshotAI/Kimi-Linear
- Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation [149.0]
Ling 2.0は、すべてのアクティベーションが推論能力を促進するという原則に基づいて構築された一連の推論指向の言語基盤である。 Ling 2.0は、経験的スケーリング法則によって導かれる、高い分散性、クロススケール一貫性、効率性を強調している。 シリーズには、Ling-mini-2.0、Ling-flash-2.0、Ling-1Tの3つの非思考モデルが含まれている。
論文 参考訳(メタデータ) (Sat, 25 Oct 2025 01:51:37 GMT) - 長いReasoningにフォーカスしたRing-1Tとはことなり、一般的な推論や指示に従う能力にフォーカス
- GitHub – inclusionAI/Ling-V2: Ling-V2 is a MoE LLM provided and open-sourced by InclusionAI.
- Scaling Latent Reasoning via Looped Language Models [109.6]
事前学習されたループ言語モデル(LoopLM)のファミリーであるOuroを提示し、オープンソース化する。 Ouro は (i) 潜時空間における反復計算, (ii) 学習深度割り当てのためのエントロピー規則化された目的, (iii) 7.7T トークンへのスケーリングによる事前学習段階への推論を構築する。
論文 参考訳(メタデータ) (Wed, 29 Oct 2025 17:45:42 GMT) - Looped Language Model (LoopLM) architectureによるモデル構築の報告。「we introduced Ouro, a family of Looped Language Models that demonstrate exceptional parameter efficiency by integrating iterative computation and adaptive depth directly into pre-training on 7.7T tokens. Our 1.4B and 2.6B models consistently match or exceed the performance of 4B and 8B standard transformers, showcasing a 2-3× efficiency gain.」と非常に効率が高い。
- Ouro: Looped Language Models
- Parallel Loop Transformer for Efficient Test-Time Computation Scaling [34.8]
大規模言語モデル(LLM)は強力だが、推論中に現実世界で使うには遅すぎるしコストもかかる。 ループ変換器は、複数の計算ステップで同じ重みを再利用することでパラメータを節約する。 ループが次々と実行され、各追加ループで推論遅延とメモリ要求が増大する。
論文 参考訳(メタデータ) (Tue, 28 Oct 2025 15:35:50 GMT) - こちらは並列のParallel Loop Transformer (PLT)
- Emu3.5: Native Multimodal Models are World Learners [65.9]
Emu3.5は大規模マルチモーダル世界モデルで、視覚と言語をまたいだ次の状態をネイティブに予測する。 Emu3.5は、視覚言語間のインターリーブデータのコーパスに基づいて、一貫した次トーケン予測目標を持つ、エンドツーエンドで事前訓練された。 それは、一貫した世界探索とオープンワールドの具体的操作を可能にする、一般化可能な世界モデリング能力を示す。
論文 参考訳(メタデータ) (Thu, 30 Oct 2025 15:11:16 GMT) - Emuシリーズ(Emu3: Next-Token Prediction is All You Need – arXiv最新論文の紹介)の最新版。「Emu3.5 further exhibits generalizable worldmodeling abilities encompassing world exploration and embodied manipulation, enabling controllable interaction, free-form navigation, and dynamic scene simulation across both real and imagined environments. We carefully evaluate these new capabilities and demonstrate clear superiority of Emu3.5, a single 32B unified model, over the closed-source Gemini 2.5 Flash Image [91].」とのこと。
- emu.world/pages/web/landingPage、GitHub – baaivision/Emu3.5: Native Multimodal Models are World Learners