Mistral Medium 3, Gemini 2.5 Pro preview, Llama-Nemotron, OpenCodeReasoning

先週注目のニュースはMistralのMistral Medium 3のリリース(Medium is the new large. | Mistral AI)。Claude 3.7 sonnetと競合する性能で「The Mistral Medium 3 API is available starting today on Mistral La Plateforme and Amazon Sagemaker, and soon on IBM WatsonX, NVIDIA NIM, Azure AI Foundry, and Google Cloud Vertex. To deploy and customize the model in your environment, please contact us. 」と各社環境での動作が可能な点が重要に思う。

GoogleのGemini 2.5 Proが使用可能になったよう(Gemini Pro – Google DeepMind)でこちらも注目度が高い。NvidiaのLlama-NemotronやOpenCodeReasoning がダウンロード可能になったことも話題になっていた。

各モデルの(第三者の)性能検証はこれからという感じだろうが、本当にニュースが多い。

  • OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.2]
    教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。 私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
    論文  参考訳(メタデータ)   (Wed, 02 Apr 2025 17:50:31 GMT)

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs

  • Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.7]
    ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。 本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。 主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
    論文  参考訳(メタデータ)   (Wed, 07 May 2025 15:46:36 GMT)
  • Llama 4, Nemotron-H, Pangu Ultra, Kimi-VL, Kimi-VL-Thinking, Deep Coder – arXiv最新論文の紹介にも関連するPangu Ultraの主に実装に関する論文。
  • 「Our system optimizations focus on Expert Parallelism and memory management, significantly lowering communication and activation overhead across 6K NPUs. These innovations enable a 30.0% MFU, demonstrating Ascend NPUs’ capability to support full-scale training of large-scale sparse LLMs, e g , Pangu Ultra MoE, with comparable performance as DeepSeek R1.」とのことでNVIDIAのGPUに頼らずとも最先端モデルを構築可能と主張しているように見える。

Teaching Models to Understand (but not Generate) High-risk Data

  • Teaching Models to Understand (but not Generate) High-risk Data [38.3]
    SLUNG(Selective Loss to Understand but not Generate)を紹介する。 SLUNGは、モデルが高リスクデータを生成せずに理解することを学ぶための事前学習パラダイムである。 SLUNGは、生成を増大させることなく、モデルによる高リスクデータの理解を一貫して改善することを示す。
    論文  参考訳(メタデータ)   (Mon, 05 May 2025 22:24:06 GMT)
  • 「This work introduces SLUNG, a pre-training paradigm that enables language models to learn from high-risk data without being trained to generate it. By selectively adjusting the training objective at the token level based on risk, SLUNG decouples a model’s ability to understand from its ability to generate, allowing models to condition on high-risk inputs while learning from adjacent low-risk tokens.」という手法の提案。口外することはできないが学ぶ必要があるもの、というのは現実的に多いわけでこのような手法は非常に面白い。

Qwen3, Phi-4 reasoning, MiMo 7B, OLMo2 1B, Mellum 4B

先週はオープンなモデルのニュースが多かった。その中でもQwen3は大きなニュースである(Qwen3: Think Deeper, Act Faster | Qwen)。MoEなQwen3-235B-A22B, Qwen3-30B-A3Bの他、denseなQwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B, Qwen3-0.6Bが公開されている(Qwen3 – a Qwen Collection)。ライセンスはApache-2。また、MicrosoftのPhi-4のreasoningモデル公開(Showcasing Phi-4-Reasoning: A Game-Changer for AI Developers | Microsoft Community Hubhuggingface)も注目。

SLMの発表も多く、XiaomiによりMiMo(GitHub – XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining)、Ai2によるOLMo release notes | Ai2が興味深い。JetBrainによるMellum(Mellum Goes Open Source: A Purpose-Built LLM for Developers, Now on Hugging Face | The JetBrains Blog)は「Mellum doesn’t try to know everything. It’s designed to do one thing really well: code completion. We call it a focal model – built with purposeful depth and not concerned with chasing breadth.」とある通り特化型。現状、Mellumは十分な性能とは言い難いものの、SLMを特化して強化する、コスパを上げる方向は有望。DeepseekProver-V2の671Bは凄いが、7Bのうまい活用のような組み合わせも重要になると思う。

  • Phi-4-reasoning Technical Report [42.5]
    Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。 我々はPhi-4-reasoning-plusを開発した。 どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 05:05:09 GMT)
  • Phi-4シリーズのLRM
  • Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1]
    CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。 本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 00:04:35 GMT)
  • SLMを利用したreasoningモデルの構築。「The resulting Phi-4-Mini-Reasoning model exceeds, on math reasoning tasks, much larger reasoning models, e g , outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and DeepSeek-R1-DistillLlama-8B by 7.7 points on Math-500.」と効果を確認とのこと。
  • 小型のモデルであってもreasoningが有効という興味深い結果。
  • DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition [24.5]
    我々はDeepSeek-Prover-V2を紹介します。 このモデルは、ニューラル定理の証明における最先端のパフォーマンスを達成し、ミニF2Fテストで88.9%のパス比に達し、PutnamBenchの658問題のうち49を解決した。 標準ベンチマークに加えて、325の形式化された問題の集合であるProverBenchを導入し、最近のAIMEコンペティションから選択された15の問題を含む評価を強化した。
    論文  参考訳(メタデータ)   (Wed, 30 Apr 2025 16:57:48 GMT)
  • 「We first prompt DeepSeek-V3 to generate a natural-language proof sketch while simultaneously formalizing it into a Lean statement with sorry placeholders for omitted proof details. A 7B prover model then recursively solves the decomposed subgoals. By combining these subgoal proofs, we construct a complete formal proof for the original complex problem.This composed proof is appended to DeepSeek-V3’s original chain-of-thought, creating high-quality cold-start training data for formal mathematical reasoning. 」
  • リポジトリはGitHub – deepseek-ai/DeepSeek-Prover-V2

WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents 

  • WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents [55.6]
    本研究では,大規模言語モデル(LLM)を補完する環境の記号的知識を学習する「世界アライメント」を提案する。 また、モデル予測制御フレームワークを用いて、RLフリーでモデルベースエージェント「WALL-E 2.0」を提案する。 WALL-E 2.0は、火星(Minecraftのような)とALFWorld(emboded indoor environment)のオープンワールド課題における既存の手法を著しく上回っている
    論文  参考訳(メタデータ)   (Tue, 22 Apr 2025 10:58:27 GMT)
  • 「Can we build accurate world models out of large language models (LLMs)? How can world models benefit LLM agents?」から始まる論文。「We have demonstrated that LLMs can effectively serve as world models for agents when aligned with environment dynamics via neurosymbolic knowledge learning.」で既存ベンチマークで効果を確認とのこと。
  • リポジトリはGitHub – elated-sawyer/WALL-E: Official code for the paper: WALL-E: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation 

  • CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.5]
    CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。 評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。 本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
    論文  参考訳(メタデータ)   (Sun, 30 Mar 2025 20:03:36 GMT)
  • クロスワードパズルを用いるベンチマーク「CrossWordBench collects data and generates puzzles from three sources: (1) multilingual word-clue pairs from public repositories, (2) dictionary-based definitions, and (3) adapted questions-answer pairs from existing benchmarks (e g , CommonsenseQA (Talmor et al , 2018)) where the answers are open-ended or unconstrained.」という構築方針。結果は「Our extensive evaluation of over 20 models shows that reasoning models substantially outperform non-reasoning counterparts and can benefit from increased crossing-letter constraints.」とLRMは強い
  • リポジトリはGitHub – SeanLeng1/CrossWordBenchHINT-lab/CrossWordBench · Datasets at Hugging Face

GPT-4.1, o3, o4-mini, Gemini 2.5 Flash, Grok 3, 3-mini API, Gemma 3 QAT

毎週非常にニュースが多いが、先週は商用APIに関する大きなニュースが多かった。

大注目なのはOpenAIのGPTシリーズ、o-xシリーズに関する発表で高い性能、高いコストパフォーマンスを発揮するモデルになっている。特にChatGPTでのo3は直接的なモデル性能だけでなくツール利用時の便利さが向上している。o3 proが楽しみ。

GoogleのGemini 2.5 Flashはコストパフォーマンスが非常に高いモデル(Gemini Flash – Google DeepMind)。「Developers gain fine-grained control over the model’s thinking process, allowing them to manage resource usage.」という機能が興味深い。Googleからは量子化に適したGemma 3 QAT Models: Bringing state-of-the-Art AI to consumer GPUs – Google Developers Blogがでているのにも注目。

X.aiからもGrok3のAPI提供がアナウンスされている(Grok 3 Beta — The Age of Reasoning Agents | xAI)。コストと性能からは競争力のあるモデルに見える。過去モデルのOSS化に踏み切るのかを含めて目が離せない。

Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 

  • Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025 [115.9]
    Review Feedback Agentは、あいまいなコメント、コンテンツの誤解、レビュアーへの専門的でない発言に対する自動的なフィードバックを提供する。 ICLR 2025で大規模なランダム化制御研究として実装された。 フィードバックを受けたレビュアーの27%がレビューを更新し、エージェントからの12,000以上のフィードバック提案がレビュアーによって取り入れられた。
    論文  参考訳(メタデータ)   (Sun, 13 Apr 2025 22:01:25 GMT)
  • ICLRによるReview Feedback Agentの効果検証、「This suggests that many reviewers found the AI-generated feedback sufficiently helpful to merit updating their reviews. Incorporating AI feedback led to significantly longer reviews (an average increase of 80 words among those who updated after receiving feedback) and more informative reviews, as evaluated by blinded researchers.」と肯定的な結果。
  • リポジトリはGitHub – zou-group/review_feedback_agent
  • 本論とは関係ないが「Authors at AI conferences increasingly report receiving short, vague reviews with criticisms like ‘not novel’ or ‘not state-of-the-art (SOTA)’ 」というのは大変そうな・・・

似て非なる論文ではあるが、「We evaluated The AI Scientist-v2 by submitting three fully autonomous manuscripts to a peer-reviewed ICLR workshop. Notably, one manuscript achieved high enough scores to exceed the average human acceptance threshold, marking the first instance of a fully AI-generated paper successfully navigating a peer review.」というAI Scientist-v2も興味深い。

  • The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search [16.9]
    AI Scientist-v2は、AIが生成した最初のピアレビュー受け入れワークショップ用紙を生産できるエンドツーエンドのエージェントシステムである。 科学的な仮説を反復的に定式化し、実験を設計し、実行し、データを分析し、視覚化し、科学的な原稿を自律的に作成する。 ある写本は、平均的な人間の受け入れ閾値を超える十分なスコアを達成し、完全なAI生成論文がピアレビューをうまくナビゲートした最初の事例となった。
    論文  参考訳(メタデータ)   (Thu, 10 Apr 2025 18:44:41 GMT)
  • リポジトリはGitHub – SakanaAI/AI-Scientist-v2: The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

  • ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations [45.6]
    我々はScholarCopilotを紹介した。ScholarCopilotは学術書記のための既存の大規模言語モデルを強化するために設計された統合フレームワークである。 ScholarCopilotは、検索トークン[RET]を生成して学術的な参照をいつ取得するかを決定し、その表現を利用してデータベースから関連する引用を検索する。 効率を上げるために、単一のフレームワーク内で生成タスクと引用タスクの両方を共同で最適化します。
    論文  参考訳(メタデータ)   (Tue, 01 Apr 2025 14:12:14 GMT)
  • 学術論文のためのLLM、「ScholarCopilot dynamically interleaves retrieval and generation by producing retrieval tokens ([RET]) based on current context, enabling context-aware citation retrieval and optional user refinement.」というRETという特殊なトークンを用いた動作が特徴的

Llama 4, Nemotron-H, Pangu Ultra, Kimi-VL, Kimi-VL-Thinking, Deep Coder

先週もLLM関連の話題は多かったが、Llama4の発表はその中でも大きなものだった(The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation)。MoE構成で高い性能を主張、第三者の検証ではいまいちという話も、量子化の影響(性能劣化)が大きいのではという話もあって、検証結果が出そろうのを待ちたいところ。

NVIDIAからは Mamba-TransformerハイブリッドなNemotron-Hが発表されている(Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models – NVIDIA ADLR)。 「Nemotron-H has been used as the backbone for Cosmos-Reason 1, a very strong VLM for physical AI.」というのにも注目。

HuaweiからはPangu Ultraの論文が出ているが、詳細なPDFは公開されていないよう。「To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1」という興味深い記載があり詳細が気になるところ。

Kimi-VL は強力なMLLMであり、また、Kimi-VL-ThinkingとLRMでもあるのが特徴的な公開モデル(moonshotai/Kimi-VL-A3B-Instruct · Hugging Face)。o3-miniレベルの性能を主張するDeepCoder: A Fully Open-Source 14B Coder at O3-mini Levelなどオープンなモデルも進化が速い。オープンなモデルを強化する方向もIntroducing Cogito PreviewCogito v1 Preview – a deepcogito Collection)など様々な成果が出ていて、公開モデルの性能も向上が続く。

  • Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [164.5]
    ネモトロン-Hは8Bと56B/47Bハイブリッド・マンバ・トランスフォーマーのファミリーである。 私たちは共通のTransformerモデルアーキテクチャにおけるほとんどの自己注意レイヤをMambaレイヤに置き換えます。 Nemotron-Hモデルは、他の同様のサイズのオープンソーストランスフォーマーモデルと比較して、精度が良いか低いかのどちらかを提供する。
    論文  参考訳(メタデータ)   (Fri, 04 Apr 2025 17:41:58 GMT)
  • 高速、高性能なMambaハイブリッドなLLM
  • Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs [123.3]
    135億のパラメータと高密度トランスフォーマーモジュールを持つ大規模言語モデル(LLM)であるPangu Ultraについて述べる。 このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。 我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
    論文  参考訳(メタデータ)   (Thu, 10 Apr 2025 15:41:51 GMT)
  • ファーウェイのLLM。ファーウェイのアクセラレータを活用して構築しているとのことだが現状論文が参照できない状態。詳細が気になるところ。