- Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs [28.6]
大きな言語モデル(LLM)は印象的な推論機能を示している。 彼らの成功の多くは、真の推論よりも、暗記された回答推論パターンに起因している、とエビデンスは示唆している。 本稿では, 応答キューを体系的に操作し, 間接的, 行動解析によるモデル行動の探索を行う5段階の応答可視プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (Sat, 21 Jun 2025 08:15:45 GMT) - 「By manipulating the visibility of final answers within prompts, we uncover a profound and consistent pattern: LLM performance is predominantly anchored to the explicit presence of final answers rather than to the textual patterns of the reasoning steps themselves.」という指摘だが、LRMによっても挙動がかなり違うのが興味深い。
タグ: LRM
AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy
- AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.3]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。 スケーリング戦略は 推理性能に顕著な改善をもたらします 我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (Mon, 16 Jun 2025 09:27:48 GMT) - LRM開発において重要なSFTとRLの関係を検証した論文。「Our results show that both scaling strategies substantially improve the reasoning abilities of large language models (LLMs).」とのこと。
- 「Interestingly, even strong SFT models with robust coding abilities benefit substantially from math-only RL training. This leads to further gains in coding performance.」のように隣接領域(?)での性能向上は、この分野だと色々なところで見られて興味深い性質だと思っている。
- リポジトリはnvidia/AceReason-Nemotron-1.1-7B · Hugging Face
Gemini 2.5 Pro, Flash , 2.5 Flash-Lite, MiniMax-M1, Kimi-Dev-72B
Gemini 2.5 Proからpreviewが取れ、2.5 Flash Liteが出る(Gemini Pro – Google DeepMind)など先週も様々なニュースがあった。
高効率なモデルで知られるMiniMaxからはReasoningモデルが出ている。MoonshotからはKimi-Dev-72Bが公開されておりこちらも期待が大きい(GitHub – MoonshotAI/Kimi-Dev: open-source coding LLM for software engineering tasks)。テクニカルレポートは準備中とのこと。
- MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention [90.7]
MiniMax-M1は、オープンウェイトで大規模なハイブリッドアテンション推論モデルである。 コンテクストの長さは100万トークンで、DeepSeek R1のコンテクストサイズは8倍だ。 MiniMax-M1は大規模強化学習を用いて訓練されている。
論文 参考訳(メタデータ) (Mon, 16 Jun 2025 15:08:02 GMT) - 効率的なLightning Attentionを活用したモデル。Lightning Attentionの計算量はコンテキスト長に対し線形(ではあるが全体のバランスを考えてのハイブリッド構造)でLRMに向いていそう。加えて最近のモデルで多いMoEを採用している。
- リポジトリはGitHub – MiniMax-AI/MiniMax-M1: MiniMax-M1, the world’s first open-weight, large-scale hybrid-attention reasoning model.
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
- The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.3]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。 我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。 また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (Sat, 07 Jun 2025 22:42:29 GMT) - LRMに対する分析。「Through extensive experimentation across diverse puzzles, we show that frontier LRMs face a complete accuracy collapse beyond certain complexities. Moreover, they exhibit a counter- intuitive scaling limit: their reasoning effort increases with problem complexity up to a point, then declines despite having an adequate token budget.」とのこと。
- 面白い検証結果。とはいえ、このような劣化はLLMの計算能力などでも指摘されてきた印象がある。直観的には現状のLLM/LRMはメタな解放に行きつけないという印象を持つが、コード生成などツール活用すれば多分解けるレベルであろうし解釈は悩ましいところ。
- 「We identified three distinct reasoning regimes: standard LLMs outperform LRMs at low complexity, LRMs excel at moderate complexity, and both collapse at high complexity.」は今の感覚としてはそうだろうと思う。
- 賛否はあるだろうが、下記のようにAnthropicのC. Opusから反論が来ているのが面白い。
- Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [0.0]
大規模推論モデル(LRM)は、特定の複雑性しきい値を超えた計画パズルについて「精度の崩壊」を示す。 これらの結果は,基本的推論失敗ではなく,実験的な設計上の制約を主に反映していることが実証された。
論文 参考訳(メタデータ) (Tue, 10 Jun 2025 21:16:53 GMT) - 1st authorがAnthropicのC. Opus、Acknowledgmentsに「We thank Ryan Greenblatt, o3, Gemini 2.5, and all of the people who pointed out the parentheses mismatch in an earlier draft for helpful comments」と書かれている。
Magistral
- Magistral [101.5]
私たちは、Mistralの最初の推論モデルであるMagistralと、当社独自のスケーラブルな強化学習パイプラインを紹介します。 テキストデータだけでRLが初期チェックポイントの能力のほとんどを維持していることを示す。 我々は、Mistral Medium 3上でRL単独で推論するために訓練されたMagistral Mediumを紹介し、Magistral Small(Apache 2.0)をオープンソース化した。
論文 参考訳(メタデータ) (Thu, 12 Jun 2025 17:22:37 GMT) - MistralのLRM、「Eating the multimodal free lunch」は面白い。
- 24BのモデルはApache2ライセンスで公開されている。mistralai/Magistral-Small-2506 · Hugging Face
OpenThoughts: Data Recipes for Reasoning Models
- OpenThoughts: Data Recipes for Reasoning Models [215.2]
OpenThoughtsプロジェクトは、推論モデルをトレーニングするためのオープンソースのデータセットを作成することだ。 OpenThoughts2-1Mデータセットは、公開推論データに基づいてトレーニングされた最初のモデルであるOpenThinker2-32Bに導かれた。 OpenThinker3-7Bモデル。
論文 参考訳(メタデータ) (Wed, 04 Jun 2025 17:25:39 GMT) - LRM構築のためのオープンデータセット。データ拡張の方向性としても参考になる。
- プロジェクトサイトはOpen Thoughts
Panguシリーズの論文
HuaweiからPangu関連の論文が複数発表されている。いずれも最新モデルの内部動作が記載されており大変参考になる。そして開発元だからがAscend NPU推しがすごい。
- Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.8]
大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。 本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。 構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
論文 参考訳(メタデータ) (Mon, 26 May 2025 15:57:08 GMT)
- Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity [105.5]
MoGEはトークンを制約し、事前に定義された各専門家グループ内で同じ数の専門家を起動させる。 Pangu Pro MoEは1カード当たり1148トークン/秒を実現し、投機的アクセラレーションにより1カードあたり1528トークン/秒にさらに改善することができる。
論文 参考訳(メタデータ) (Tue, 27 May 2025 16:40:21 GMT)
- Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [94.5]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。 既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。 単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (Wed, 28 May 2025 14:03:02 GMT)
Think Only When You Need with Large Hybrid-Reasoning Models
- Think Only When You Need with Large Hybrid-Reasoning Models [121.6]
LHRM(Large Hybrid-Reasoning Model) ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できるモデル。 実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
論文 参考訳(メタデータ) (Wed, 21 May 2025 05:17:34 GMT) - LLM, LRMハイブリッドな手法の提案。「We begin with a hybrid-formatted supervised fine-tuning stage named Hybrid Fine-Tuning (HFT) that integrates both reasoning-intensive (Thinking) and direct-answer (No-Thinking) data. This approach mitigates the instability often observed in cold-start scenarios [GYZ+25], and establishes a robust initialization for next stage reinforcement learning.」という第一ステージを挟んでいるのが面白い。
- LHRMという略語が定着する可能性があるのかは若干気になる。
- リポジトリはAdvancing AI for Humanity
- Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.1]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。 この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。 本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (Tue, 20 May 2025 16:53:40 GMT) - 「we propose a novel endogenous approach, Self-Braking Tuning (SBT), to mitigating overthinking in large language models.」とtoken節約という意味では近い内容。
- リポジトリはGitHub – ZJU-REAL/Self-Braking-Tuning: Let LLMs Break Free from Overthinking via Self-Braking Tuning
Google I/O, Claude 4 Sonnet / Opus
Google I/Oで発表されたGemini 2.5 Proの性能(含DeepThink)、Imagen 4やVeo 3といった画像生成・動画生成モデル及び同時期に発表された拡散モデルなGemini DiffusionはGoogleが全方位で生成AIに取り組み、かつ、高い成果を出している証拠でさすがGoogleという感じ。
- Google I/O 2025: Google DeepMind から Gemini 2.5 のアップデート
- Gemini アプリ: Google I/O 2025で発表した7アップデート
- Imagen 4, Veo 3: Googleの最新のメディア生成モデル
- Gemini Diffusion – Google DeepMind
GoogleはIt’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization – arXiv最新論文の紹介などNext Transformerな研究も積極的に行っておりとても興味深い。このあたりもさすがGoogle。
AnthropicからはClaude 4が発表されている。Agenticな動作で重要となる機能やコード生成で高い性能を主張しており、期待大。
OpenAI一強の時代から一歩進んだ印象。オープンな取り組みも活発だが、商用モデルも立て続けに興味深い発表がされており非常に競争が激しい。
Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought
- Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought [190.9]
Hunyuan-TurboSは、Transformer-Mamba Mixture of Expertsの大型ハイブリッドモデルである。 高いパフォーマンスと効率のバランスを保ち、推論コストを低く抑えている。
論文 参考訳(メタデータ) (Wed, 21 May 2025 12:11:53 GMT) - TencentによるMamba hybrid、MoE、Adaptive CoTと全部盛り感のあるモデル(Mistral Small 3.1, Hunyuan-T1 – arXiv最新論文の紹介にも関連)。
- Hunyuan-TurboS features an adaptive long-short chain-of-thought (CoT) mechanism, dynamically switching between rapid responses for simple queries and deep ”thinking” modes for complex problems, optimizing computational resources. Architecturally, this 56B activated (560B total) parameter model employs 128 layers (Mamba2, Attention, FFN) with an innovative AMF/MF block pattern.
- Mambaアーキテクチャ(ハイブリッド)モデルでベンチマークのスコアも非常に高い。「LMSYS Chatbot Arena with a score of 1356, outperforming leading models like Gemini-2.0-Flash-001 (1352) and o4-mini-2025-04-16 (1345)」とのこと。(LLM?LRM?という疑問はありつつ)個別タスクだと他のオープンソースモデルや商用モデルを超えているものもある。オープンな比較対象はLlama-4-Maverick, DeepSeek-V3 , Qwen3-235B-A22Bと最新のもの。
- 「The inference of the Hunyuan-TurboS model is powered by the AngelHCF Inference Acceleration Framework. For the Mamba Hybrid architecture of the TurboS model, we have implemented optimizations across folloing three key dimensions, ultimately achieving a 1.8x speedup compared to Hunyuan-Turbo, which is a pure Transformers MoE model」とMambaの有効性もしてしており、全般的に非常に先進的なモデルに見える。