MiniMax M2, Kimi-Linear, Ling-V2, Ouro, Emu3.5, gpt-oss-safeguard

先週は公開モデルの話題が多く、その中でもMiniMax-M2 Kimi-Linearは要注目。特に後者は効率性も高い。先週のRingとややこしいが、Ling-V2も強力なモデルである(This report focuses on three reflex-grade non-thinking (instruct) models in the Ling 2.0 family—Ling-mini-2.0, Ling-flash-2.0, and Ling-1T. These models emphasize general reasoning and instruction-following capability, while the Ring series (Ling-Team, 2025), built upon the same Ling 2.0 base, extends toward deep thinking models.とのこと)。また、小型モデルであるOuro-2.6B Ouro-2.6B-Thinkingも興味深かった。

上記とは異なるがマルチモーダルなEmu3.5、分類タスク(safety classification tasks)用のgpt-oss-safeguardなど強力なモデルが公開されるのは良いことだと思う。(最後の例は想定活用例が他とはだいぶ異なりそうではあるが。。)

  • Kimi Linear: An Expressive, Efficient Attention Architecture [75.9]
    Kimi Linearはハイブリッドな線形アテンションアーキテクチャで、初めて、公正な比較で完全にアテンションを上回ります。 中心となるKimi Delta Attention (KDA)は、Gated DeltaNetを拡張した表現力のある線形アテンションモジュールである。 我々は,Kimi Linearがより優れた性能と効率で十分な注意を払って,ドロップインで置き換えられることを示す。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 16:59:43 GMT)
  • 「At its core lies Kimi Delta Attention (KDA), a hardware-efficient linear attention module that extends Gated DeltaNet [111] with a finer-grained gating mechanism. While GDN, similar to Mamba2 [16], employs a coarse head-wise forget gate, KDA introduces a channel-wise variant in which each feature dimension maintains an independent forgetting rate, akin to Gated Linear Attention (GLA) [114]. This fine-grained design enables more precise regulation of the finite-state RNN memory, unlocking the potential of RNN-style models within hybrid architectures.」をハイブリッド構成で活用。
  • GitHub – MoonshotAI/Kimi-Linear
  • Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation [149.0]
    Ling 2.0は、すべてのアクティベーションが推論能力を促進するという原則に基づいて構築された一連の推論指向の言語基盤である。 Ling 2.0は、経験的スケーリング法則によって導かれる、高い分散性、クロススケール一貫性、効率性を強調している。 シリーズには、Ling-mini-2.0、Ling-flash-2.0、Ling-1Tの3つの非思考モデルが含まれている。
    論文  参考訳(メタデータ)   (Sat, 25 Oct 2025 01:51:37 GMT)
  • 長いReasoningにフォーカスしたRing-1Tとはことなり、一般的な推論や指示に従う能力にフォーカス
  • GitHub – inclusionAI/Ling-V2: Ling-V2 is a MoE LLM provided and open-sourced by InclusionAI.
  • Scaling Latent Reasoning via Looped Language Models [109.6]
    事前学習されたループ言語モデル(LoopLM)のファミリーであるOuroを提示し、オープンソース化する。 Ouro は (i) 潜時空間における反復計算, (ii) 学習深度割り当てのためのエントロピー規則化された目的, (iii) 7.7T トークンへのスケーリングによる事前学習段階への推論を構築する。
    論文  参考訳(メタデータ)   (Wed, 29 Oct 2025 17:45:42 GMT)
  • Looped Language Model (LoopLM) architectureによるモデル構築の報告。「we introduced Ouro, a family of Looped Language Models that demonstrate exceptional parameter efficiency by integrating iterative computation and adaptive depth directly into pre-training on 7.7T tokens. Our 1.4B and 2.6B models consistently match or exceed the performance of 4B and 8B standard transformers, showcasing a 2-3× efficiency gain.」と非常に効率が高い。
  • Ouro: Looped Language Models
  • Parallel Loop Transformer for Efficient Test-Time Computation Scaling [34.8]
    大規模言語モデル(LLM)は強力だが、推論中に現実世界で使うには遅すぎるしコストもかかる。 ループ変換器は、複数の計算ステップで同じ重みを再利用することでパラメータを節約する。 ループが次々と実行され、各追加ループで推論遅延とメモリ要求が増大する。
    論文  参考訳(メタデータ)   (Tue, 28 Oct 2025 15:35:50 GMT)
  • こちらは並列のParallel Loop Transformer (PLT)
  • Emu3.5: Native Multimodal Models are World Learners [65.9]
    Emu3.5は大規模マルチモーダル世界モデルで、視覚と言語をまたいだ次の状態をネイティブに予測する。 Emu3.5は、視覚言語間のインターリーブデータのコーパスに基づいて、一貫した次トーケン予測目標を持つ、エンドツーエンドで事前訓練された。 それは、一貫した世界探索とオープンワールドの具体的操作を可能にする、一般化可能な世界モデリング能力を示す。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 15:11:16 GMT)
  • Emuシリーズ(Emu3: Next-Token Prediction is All You Need – arXiv最新論文の紹介)の最新版。「Emu3.5 further exhibits generalizable worldmodeling abilities encompassing world exploration and embodied manipulation, enabling controllable interaction, free-form navigation, and dynamic scene simulation across both real and imagined environments. We carefully evaluate these new capabilities and demonstrate clear superiority of Emu3.5, a single 32B unified model, over the closed-source Gemini 2.5 Flash Image [91].」とのこと。
  • emu.world/pages/web/landingPageGitHub – baaivision/Emu3.5: Native Multimodal Models are World Learners

InternVL3, PerceptionLM, BitNet b1.58 2B4T

公開モデルでも興味深いものが発表されている。InternVL3はVision-Languageモデルで有名なInternVLのver 3、オープンなMLLMのSoTA、78Bと大型で商用モデルとも競合する性能を主張。PerceptionLMはMetaによるオープンなVLM(Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding.)。

上記とは雰囲気が異なるBitNet b1.58 2B4TはBitNetの実装・公開モデル。「The core contribution of this work is to demonstrate that a native 1-bit LLM, when trained effectively at scale, can achieve performance comparable to leading open-weight, full-precision models of similar size across a wide range of tasks.」とのこと。

  • BitNet b1.58 2B4T Technical Report [118.8]
    BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。 4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
    論文  参考訳(メタデータ)   (Wed, 16 Apr 2025 17:51:43 GMT)
  • リポジトリはGitHub – microsoft/BitNet: Official inference framework for 1-bit LLMs、モデルはmicrosoft/bitnet-b1.58-2B-4T · Hugging Face
  • デモもある(Bitnet)が、特に日本語性能はかなり物足りない。(日本語になっているだけすごいともいえるが・・・)

A Survey on Memory-Efficient Large-Scale Model Training in AI for Science 

  • A Survey on Memory-Efficient Large-Scale Model Training in AI for Science [20.3]
    この調査は、生物学、医学、化学、気象学などの科学分野にまたがる応用をレビューする。 本稿では,変圧器アーキテクチャに基づく大規模言語モデル(LLM)のメモリ効率トレーニング手法について概説する。 予測精度を保ちながら,メモリ最適化手法がストレージ需要を削減できることを実証する。
    論文  参考訳(メタデータ)   (Tue, 21 Jan 2025 03:06:30 GMT)
  • 科学への応用にフォーカスしたMemory Efficientなモデルのサーベイ
  • 「Using AlphaFold 2 as an example, we demonstrate how tailored memory optimization methods can reduce storage needs while preserving prediction accuracy.」という内容も。

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning 

Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora 

  • Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.0]
    BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。 参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
    論文  参考訳(メタデータ)   (Fri, 06 Dec 2024 16:06:08 GMT)
  • 「Participants could submit to a 10M-word text-only track, a 100Mword text-only track, and/or a 100M-word and image multimodal track.」というデータを制限したコンペの結果
  • 「With 31 submissions from 17 countries, the challenge revealed several key insights: innovations in model architecture, training objectives, and dataset construction proved particularly effective, with GPT-BERT, a hybrid causalmasked language model architecture, emerging as the strongest approach for the Strict and StrictSmall tracks.」とのこと

On Efficient Variants of Segment Anything Model: A Survey 

  • On Efficient Variants of Segment Anything Model: A Survey [63.1]
    Segment Anything Model (SAM) は画像分割タスクの基本モデルであり、多様なアプリケーションにまたがる強力な一般化で知られている。 これを解決するために、精度を犠牲にすることなく効率を高めるために様々なSAM変種が提案されている。 この調査は、これらの効率的なSAM変種に関する最初の包括的なレビューを提供する。
    論文  参考訳(メタデータ)   (Mon, 07 Oct 2024 11:59:54 GMT)
  • SAMのサーベイ
  • 効率化を主体としたものとはいえこれだけの変種があるのに驚き。。

Weak-to-Strong Extrapolation Expedites Alignment

  • Weak-to-Strong Extrapolation Expedites Alignment [135.1]
    人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。 AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。 本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
    論文  参考訳(メタデータ)   (Thu, 25 Apr 2024 17:39:50 GMT)
  • 「By extrapolating from the weights of an SFT model Mw and a further trained one M, EXPO enables directly obtaining a better-aligned model without any additional training.」という手法の提案。とてもシンプルに外装しているように見え、なんでこんなんでうごくんや。
  • リポジトリはGitHub – chujiezheng/LLM-Extrapolation: Official repository for paper “Weak-to-Strong Extrapolation Expedites Alignment”

JetMoE: Reaching Llama2 Performance with 0.1M Dollars

  • JetMoE: Reaching Llama2 Performance with 0.1M Dollars [25.3]
    このレポートでは、JetMoE-8Bという新しい大規模言語モデルを紹介します。 低コストにもかかわらず、JetMoE-8BはLlama2-7Bモデルより優れ、JetMoE-8B-ChatはLlama2-13B-Chatモデルより優れていた。 本報告では,すべてのトレーニングパラメータとデータ混合物について詳述し,オープンファンデーションモデルの開発における今後の取り組みを促進する。
    論文  参考訳(メタデータ)   (Thu, 11 Apr 2024 00:52:39 GMT)
  • 安価(といっても「$0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours.」)でLLMを構築するレシピの提案
  • リポジトリはmyshell-ai/JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars (github.com)

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

  • Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length [112.8]
    文脈長無制限の効率的なシーケンスモデリングのためのニューラルネットワークであるMegalodonを紹介する。 Llama2と比較して、Megalodonは70億のパラメータと2兆のトレーニングトークンのスケールでTransformerよりも効率が良い。
    論文  参考訳(メタデータ)   (Fri, 12 Apr 2024 20:28:14 GMT)
  • Transformerより効率が良いとする構造の提案。MEGA (exponential moving average with gated attention)を継承。同規模のLlama2より性能がよさそうで驚き。
  • リポジトリはXuezheMax/megalodon: Reference implementation of Megalodon 7B model (github.com)

Rho-1: Not All Tokens Are What You Need

  • Rho-1: Not All Tokens Are What You Need [132.3]
    「コーパス内のトークンはすべて、言語モデルトレーニングに等しく重要ではない」 Rho-1 は選択言語モデリング (SLM) を採用しており、所望の分布に合わせて有用なトークンを選択的に訓練する。 15B OpenWebMathコーパスで継続事前トレーニングを行うと、Rho-1は9つの数学タスクで最大30%のショット精度で絶対的に改善する。
    論文  参考訳(メタデータ)   (Thu, 11 Apr 2024 17:52:01 GMT)
  • 「Selective Language Modeling (SLM), which selectively trains on useful tokens that aligned with the desired distribution.」によって最終性能が上がるという報告。高品質(所望の)ドキュメントで参照モデルを構築し、その結果を利用してトークンを選択するアプローチのよう。
  • リポジトリはmicrosoft/rho: Token-level Data Filtering & Selective Pretraining of LLMs. (github.com)