Qwen3, Phi-4 reasoning, MiMo 7B, OLMo2 1B, Mellum 4B

先週はオープンなモデルのニュースが多かった。その中でもQwen3は大きなニュースである(Qwen3: Think Deeper, Act Faster | Qwen)。MoEなQwen3-235B-A22B, Qwen3-30B-A3Bの他、denseなQwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B, Qwen3-0.6Bが公開されている(Qwen3 – a Qwen Collection)。ライセンスはApache-2。また、MicrosoftのPhi-4のreasoningモデル公開(Showcasing Phi-4-Reasoning: A Game-Changer for AI Developers | Microsoft Community Hubhuggingface)も注目。

SLMの発表も多く、XiaomiによりMiMo(GitHub – XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining)、Ai2によるOLMo release notes | Ai2が興味深い。JetBrainによるMellum(Mellum Goes Open Source: A Purpose-Built LLM for Developers, Now on Hugging Face | The JetBrains Blog)は「Mellum doesn’t try to know everything. It’s designed to do one thing really well: code completion. We call it a focal model – built with purposeful depth and not concerned with chasing breadth.」とある通り特化型。現状、Mellumは十分な性能とは言い難いものの、SLMを特化して強化する、コスパを上げる方向は有望。DeepseekProver-V2の671Bは凄いが、7Bのうまい活用のような組み合わせも重要になると思う。

  • Phi-4-reasoning Technical Report [42.5]
    Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。 我々はPhi-4-reasoning-plusを開発した。 どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 05:05:09 GMT)
  • Phi-4シリーズのLRM
  • Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1]
    CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。 本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 00:04:35 GMT)
  • SLMを利用したreasoningモデルの構築。「The resulting Phi-4-Mini-Reasoning model exceeds, on math reasoning tasks, much larger reasoning models, e g , outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and DeepSeek-R1-DistillLlama-8B by 7.7 points on Math-500.」と効果を確認とのこと。
  • 小型のモデルであってもreasoningが有効という興味深い結果。
  • DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition [24.5]
    我々はDeepSeek-Prover-V2を紹介します。 このモデルは、ニューラル定理の証明における最先端のパフォーマンスを達成し、ミニF2Fテストで88.9%のパス比に達し、PutnamBenchの658問題のうち49を解決した。 標準ベンチマークに加えて、325の形式化された問題の集合であるProverBenchを導入し、最近のAIMEコンペティションから選択された15の問題を含む評価を強化した。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 16:57:48 GMT)
  • 「We first prompt DeepSeek-V3 to generate a natural-language proof sketch while simultaneously formalizing it into a Lean statement with sorry placeholders for omitted proof details. A 7B prover model then recursively solves the decomposed subgoals. By combining these subgoal proofs, we construct a complete formal proof for the original complex problem.This composed proof is appended to DeepSeek-V3’s original chain-of-thought, creating high-quality cold-start training data for formal mathematical reasoning. 」
  • リポジトリはGitHub – deepseek-ai/DeepSeek-Prover-V2

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

  • Reinforcement Learning for Reasoning in Large Language Models with One Training Example [129.1]
    1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。 1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
    論文  参考訳(メタデータ)   (Tue, 29 Apr 2025 09:24:30 GMT)
  • 「We find that selecting one specific example as the training dataset can achieve similar downstream performance to that of the 1.2k DeepScaleR subset (DSR-sub) containing that example. Specifically, this improves the Qwen2.5-Math-1.5B model from 36.0% to 73.6% on MATH500, and from 17.6% to 35.7% on average across 6 mathematical reasoning benchmarks (Fig. 1, 2).」という興味深い報告。「These findings suggest that the reasoning capability of the model is already buried in the base model, and encouraging exploration on a very small amount of data is capable of generating useful RL training signals for igniting LLM’s reasoning capability.」はそうなのだろうと思う。LLMの中には何が入っていてチューニングって何をしているんだろう。。。
  • リポジトリはGitHub – ypwang61/One-Shot-RLVR: official repository for “Reinforcement Learning for Reasoning in Large Language Models with One Training Example”

GPT-4.1, o3, o4-mini, Gemini 2.5 Flash, Grok 3, 3-mini API, Gemma 3 QAT

毎週非常にニュースが多いが、先週は商用APIに関する大きなニュースが多かった。

大注目なのはOpenAIのGPTシリーズ、o-xシリーズに関する発表で高い性能、高いコストパフォーマンスを発揮するモデルになっている。特にChatGPTでのo3は直接的なモデル性能だけでなくツール利用時の便利さが向上している。o3 proが楽しみ。

GoogleのGemini 2.5 Flashはコストパフォーマンスが非常に高いモデル(Gemini Flash – Google DeepMind)。「Developers gain fine-grained control over the model’s thinking process, allowing them to manage resource usage.」という機能が興味深い。Googleからは量子化に適したGemma 3 QAT Models: Bringing state-of-the-Art AI to consumer GPUs – Google Developers Blogがでているのにも注目。

X.aiからもGrok3のAPI提供がアナウンスされている(Grok 3 Beta — The Age of Reasoning Agents | xAI)。コストと性能からは競争力のあるモデルに見える。過去モデルのOSS化に踏み切るのかを含めて目が離せない。

Assessing Judging Bias in Large Reasoning Models: An Empirical Study

  • Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.9]
    DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。 本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
    論文  参考訳(メタデータ)   (Mon, 14 Apr 2025 07:14:27 GMT)
  • LRMにおけるJudge時のバイアスに関する検証
  • 基本的にLRMのJudgeに関する性能は高く「Through investigation of bandwagon, authority, position, and distraction biases, we uncover four key findings: (1) despite their advanced reasoning capabilities, LRMs remain susceptible to the above biases; (2) LRMs demonstrate better robustness than LLMs specifically on fact-related datasets; (3) LRMs exhibit notable position bias, preferring options in later positions; and (4) we identify a novel “superficial reflection bias” where phrases mimicking reasoning (e g , “wait, let me think…”) significantly influence model judgments.」とのこと。
  • 「We identify a novel “superficial reflection bias” in LRMs, where phrases mimicking reasoning significantly influence judging outcomes, demonstrating how reasoning mechanisms can introduce new vulnerabilities in automated evaluation.」という点、おそらく学習過程によるものであろうということが興味深い。

DeepSeek-R1 Thoughtology: Let’s about LLM Reasoning 

  • DeepSeek-R1 Thoughtology: Let’s <think> about LLM Reasoning [31.8]
    本稿では,DeepSeek-R1の思考長,長期的・紛らわしい文脈の管理,文化的・安全性に関する影響と制御性について検討する。 DeepSeek-R1には、余分な推論時間によってモデルパフォーマンスが損なわれるような推論の‘スイートスポット’がある。 また、DeepSeek-R1の安全性上の脆弱性は、非合理的な脆弱性と比べても大きい。
    論文  参考訳(メタデータ)   (Wed, 02 Apr 2025 00:36:08 GMT)
  • DeepSeek R1の推論に関する分析、「DeepSeek-R1 exhibits higher safety vulnerabilities compared to its non-reasoning counterpart DeepSeek-V3 (DeepSeek-AI et al , 2025b). We also show that the model’s reasoning capabilities can be used to generate jailbreak attacks that successfully elicit harmful responses from safety-aligned LLMs.」、「When presented with moral or cultural questions, DeepSeek-R1 reasons for significantly longer when prompted in English than when prompted in Chinese. It also provides different responses, displaying different sets of cultural values in each language」は面白い。

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

  • SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.9]
    ThinkLite-VLはQwen2.5-VL-7Bインストラクションの平均性能を7%向上させる。 私たちのコード、データ、モデルはhttps://github.com/si0wang/ThinkLite-VL.orgで公開されています。
    論文  参考訳(メタデータ)   (Thu, 10 Apr 2025 17:49:05 GMT)
  • 効率のよいVision-Languageモデルの推論強化方法の提案。「Our model achieves SoTA performance using only 11k data, and without any additional knowledge distillation.」と使用データが少ない。カギはデータ品質とのこと「Our key insight highlights the critical importance of selecting genuinely challenging examples for Reinforcement Fine-Tuning (RFT).」
  • リポジトリはGitHub – si0wang/ThinkLite-VL

Llama 4, Nemotron-H, Pangu Ultra, Kimi-VL, Kimi-VL-Thinking, Deep Coder

先週もLLM関連の話題は多かったが、Llama4の発表はその中でも大きなものだった(The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation)。MoE構成で高い性能を主張、第三者の検証ではいまいちという話も、量子化の影響(性能劣化)が大きいのではという話もあって、検証結果が出そろうのを待ちたいところ。

NVIDIAからは Mamba-TransformerハイブリッドなNemotron-Hが発表されている(Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models – NVIDIA ADLR)。 「Nemotron-H has been used as the backbone for Cosmos-Reason 1, a very strong VLM for physical AI.」というのにも注目。

HuaweiからはPangu Ultraの論文が出ているが、詳細なPDFは公開されていないよう。「To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1」という興味深い記載があり詳細が気になるところ。

Kimi-VL は強力なMLLMであり、また、Kimi-VL-ThinkingとLRMでもあるのが特徴的な公開モデル(moonshotai/Kimi-VL-A3B-Instruct · Hugging Face)。o3-miniレベルの性能を主張するDeepCoder: A Fully Open-Source 14B Coder at O3-mini Levelなどオープンなモデルも進化が速い。オープンなモデルを強化する方向もIntroducing Cogito PreviewCogito v1 Preview – a deepcogito Collection)など様々な成果が出ていて、公開モデルの性能も向上が続く。

  • Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [164.5]
    ネモトロン-Hは8Bと56B/47Bハイブリッド・マンバ・トランスフォーマーのファミリーである。 私たちは共通のTransformerモデルアーキテクチャにおけるほとんどの自己注意レイヤをMambaレイヤに置き換えます。 Nemotron-Hモデルは、他の同様のサイズのオープンソーストランスフォーマーモデルと比較して、精度が良いか低いかのどちらかを提供する。
    論文  参考訳(メタデータ)   (Fri, 04 Apr 2025 17:41:58 GMT)
  • 高速、高性能なMambaハイブリッドなLLM
  • Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs [123.3]
    135億のパラメータと高密度トランスフォーマーモジュールを持つ大規模言語モデル(LLM)であるPangu Ultraについて述べる。 このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。 我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
    論文  参考訳(メタデータ)   (Thu, 10 Apr 2025 15:41:51 GMT)
  • ファーウェイのLLM。ファーウェイのアクセラレータを活用して構築しているとのことだが現状論文が参照できない状態。詳細が気になるところ。

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities

  • Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.8]
    近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。 議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。 適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
    論文  参考訳(メタデータ)   (Sun, 23 Mar 2025 08:18:51 GMT)
  • 「The overall results of different LRMs under the Zero-Thinking, Summary-Thinking and Summary-Thinking-Plus mode for the evaluation of foundational capabilities.」の表5の結果が非常に興味深い。推論にパワーをかければよいというわけでもなく適応型戦略の重要性がよくわかる。
  • リポジトリはGitHub – SCIR-SC-Qiaoban-Team/FreeEvalLM

Cosmos World Foundation Model Platform for Physical AI 

  • Cosmos World Foundation Model Platform for Physical AI [136.1]
    私たちは、開発者が物理AIセットアップのためにカスタマイズされた世界モデルを構築するのを助けるために、Cosmos World Foundation Model Platformを紹介します。 我々のプラットフォームは、ビデオキュレーションパイプライン、事前訓練された世界ファンデーションモデル、事前訓練された世界ファンデーションモデルのポストトレーニング例、ビデオトークン化ツールをカバーしています。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 16:59:07 GMT)
  • 物理世界の理解と推論のためのマルチモーダルモデル、Cosmos-Reason1の提案。「In this paper, we present the Cosmos-Reason1 models that can understand the physical world and generate appropriate embodied decisions (e g , next step action) in natural language through long chain-of-thought reasoning processes.」「With Physical AI SFT and RL, Cosmos-Reason1 can learn intuitive physics, such as the arrow of time and object permanence, which existing models struggle with.」とCoTなLRMに似た構成。確かにこの分野に対してReasoning modelは有効そう。
  • リポジトリはGitHub – nvidia-cosmos/cosmos-reason1: Cosmos-Reason1 models understand the physical common sense and generate appropriate embodied decisions in natural language through long chain-of-thought reasoning processes.