Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

  • Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [50.0]
    本研究では,Mixture-of-Recursions (MoR)を導入した。 MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。 また、KVペアを最初の再帰から再利用するKV共有変種を提案し、特にプリフィルレイテンシとメモリフットプリントの削減を図っている。
    論文  参考訳(メタデータ)   (Mon, 14 Jul 2025 17:49:00 GMT)
  • 「We propose Mixture-of-Recursions (MoR)—a framework that dynamically adjusts recursion step for each token during pretraining and inference. The core of MoR lies in two components: a routing mechanism that assigns token-specific recursion steps to adaptively concentrate computation on more challenging tokens, and a KV caching strategy that defines how KV pairs are stored and selectively utilized for attention at each recursive step.」という構造の提案。「MoR consistently outperforms recursive baselines and matches or exceeds the standard Transformers at larger scales, despite using significantly fewer parameters (approximately one-third due to layer tying with 𝑁𝑅= 3).」とのこと。
  • リポジトリはGitHub – raymin0223/mixture_of_recursions: Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Thinking

Lizard: An Efficient Linearization Framework for Large Language Models

  • Lizard: An Efficient Linearization Framework for Large Language Models [100.6]
    我々は,事前学習したトランスフォーマーベース大規模言語モデル(LLM)を,無限コンテキスト生成のための柔軟性のあるサブクワッドアーキテクチャに変換する線形化フレームワークであるLizardを提案する。 Lizardは、出力品質を保ちながらソフトマックスアテンションを正確に近似するサブクワッドアテンションメカニズムを導入することで、この制限に対処する。 そこで本研究では,Lizardが従来の線形化手法を著しく上回りながら,標準言語モデリングタスクにおける教師モデルの性能のほぼ無作為な回復を実現していることを示す。
    論文  参考訳(メタデータ)   (Fri, 11 Jul 2025 21:19:18 GMT)
  • 「Lizard (Linearizing Softmax Attention with Recurrent Gate Dynamics), an efficient framework for linearizing LLMs」の提案。
  • 「We train our model in two stages: (1) an attention approximation stage where the subquadratic modules are trained to mimic softmax attention outputs, and (2) a fine-tuning stage where the linearized model is adapted to downstream language modeling objectives.」と既存モデルを活用していくアプローチで拡張に使用する学習データが少なく、性能劣化も抑えられるとのこと。

Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety 

  • Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.8]
    CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。 我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。 CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
    論文  参考訳(メタデータ)   (Tue, 15 Jul 2025 16:43:41 GMT)
  • CoT監視可能性に関する検討。できそうに思いつつCoTの実際の例を見ると結構難しそうにも思える。