- Reinforcement Learning for Reasoning in Large Language Models with One Training Example [129.1]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。 1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (Tue, 29 Apr 2025 09:24:30 GMT) - 「We find that selecting one specific example as the training dataset can achieve similar downstream performance to that of the 1.2k DeepScaleR subset (DSR-sub) containing that example. Specifically, this improves the Qwen2.5-Math-1.5B model from 36.0% to 73.6% on MATH500, and from 17.6% to 35.7% on average across 6 mathematical reasoning benchmarks (Fig. 1, 2).」という興味深い報告。「These findings suggest that the reasoning capability of the model is already buried in the base model, and encouraging exploration on a very small amount of data is capable of generating useful RL training signals for igniting LLM’s reasoning capability.」はそうなのだろうと思う。LLMの中には何が入っていてチューニングって何をしているんだろう。。。
- リポジトリはGitHub – ypwang61/One-Shot-RLVR: official repository for “Reinforcement Learning for Reasoning in Large Language Models with One Training Example”
タグ: LRM
GPT-4.1, o3, o4-mini, Gemini 2.5 Flash, Grok 3, 3-mini API, Gemma 3 QAT
毎週非常にニュースが多いが、先週は商用APIに関する大きなニュースが多かった。
大注目なのはOpenAIのGPTシリーズ、o-xシリーズに関する発表で高い性能、高いコストパフォーマンスを発揮するモデルになっている。特にChatGPTでのo3は直接的なモデル性能だけでなくツール利用時の便利さが向上している。o3 proが楽しみ。
GoogleのGemini 2.5 Flashはコストパフォーマンスが非常に高いモデル(Gemini Flash – Google DeepMind)。「Developers gain fine-grained control over the model’s thinking process, allowing them to manage resource usage.」という機能が興味深い。Googleからは量子化に適したGemma 3 QAT Models: Bringing state-of-the-Art AI to consumer GPUs – Google Developers Blogがでているのにも注目。
X.aiからもGrok3のAPI提供がアナウンスされている(Grok 3 Beta — The Age of Reasoning Agents | xAI)。コストと性能からは競争力のあるモデルに見える。過去モデルのOSS化に踏み切るのかを含めて目が離せない。
Assessing Judging Bias in Large Reasoning Models: An Empirical Study
- Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.9]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。 本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文 参考訳(メタデータ) (Mon, 14 Apr 2025 07:14:27 GMT) - LRMにおけるJudge時のバイアスに関する検証
- 基本的にLRMのJudgeに関する性能は高く「Through investigation of bandwagon, authority, position, and distraction biases, we uncover four key findings: (1) despite their advanced reasoning capabilities, LRMs remain susceptible to the above biases; (2) LRMs demonstrate better robustness than LLMs specifically on fact-related datasets; (3) LRMs exhibit notable position bias, preferring options in later positions; and (4) we identify a novel “superficial reflection bias” where phrases mimicking reasoning (e g , “wait, let me think…”) significantly influence model judgments.」とのこと。
- 「We identify a novel “superficial reflection bias” in LRMs, where phrases mimicking reasoning significantly influence judging outcomes, demonstrating how reasoning mechanisms can introduce new vulnerabilities in automated evaluation.」という点、おそらく学習過程によるものであろうということが興味深い。
DeepSeek-R1 Thoughtology: Let’s about LLM Reasoning
- DeepSeek-R1 Thoughtology: Let’s <think> about LLM Reasoning [31.8]
本稿では,DeepSeek-R1の思考長,長期的・紛らわしい文脈の管理,文化的・安全性に関する影響と制御性について検討する。 DeepSeek-R1には、余分な推論時間によってモデルパフォーマンスが損なわれるような推論の‘スイートスポット’がある。 また、DeepSeek-R1の安全性上の脆弱性は、非合理的な脆弱性と比べても大きい。
論文 参考訳(メタデータ) (Wed, 02 Apr 2025 00:36:08 GMT) - DeepSeek R1の推論に関する分析、「DeepSeek-R1 exhibits higher safety vulnerabilities compared to its non-reasoning counterpart DeepSeek-V3 (DeepSeek-AI et al , 2025b). We also show that the model’s reasoning capabilities can be used to generate jailbreak attacks that successfully elicit harmful responses from safety-aligned LLMs.」、「When presented with moral or cultural questions, DeepSeek-R1 reasons for significantly longer when prompted in English than when prompted in Chinese. It also provides different responses, displaying different sets of cultural values in each language」は面白い。
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
- SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.9]
ThinkLite-VLはQwen2.5-VL-7Bインストラクションの平均性能を7%向上させる。 私たちのコード、データ、モデルはhttps://github.com/si0wang/ThinkLite-VL.orgで公開されています。
論文 参考訳(メタデータ) (Thu, 10 Apr 2025 17:49:05 GMT) - 効率のよいVision-Languageモデルの推論強化方法の提案。「Our model achieves SoTA performance using only 11k data, and without any additional knowledge distillation.」と使用データが少ない。カギはデータ品質とのこと「Our key insight highlights the critical importance of selecting genuinely challenging examples for Reinforcement Fine-Tuning (RFT).」
- リポジトリはGitHub – si0wang/ThinkLite-VL
Llama 4, Nemotron-H, Pangu Ultra, Kimi-VL, Kimi-VL-Thinking, Deep Coder
先週もLLM関連の話題は多かったが、Llama4の発表はその中でも大きなものだった(The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation)。MoE構成で高い性能を主張、第三者の検証ではいまいちという話も、量子化の影響(性能劣化)が大きいのではという話もあって、検証結果が出そろうのを待ちたいところ。
NVIDIAからは Mamba-TransformerハイブリッドなNemotron-Hが発表されている(Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models – NVIDIA ADLR)。 「Nemotron-H has been used as the backbone for Cosmos-Reason 1, a very strong VLM for physical AI.」というのにも注目。
HuaweiからはPangu Ultraの論文が出ているが、詳細なPDFは公開されていないよう。「To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1」という興味深い記載があり詳細が気になるところ。
Kimi-VL は強力なMLLMであり、また、Kimi-VL-ThinkingとLRMでもあるのが特徴的な公開モデル(moonshotai/Kimi-VL-A3B-Instruct · Hugging Face)。o3-miniレベルの性能を主張するDeepCoder: A Fully Open-Source 14B Coder at O3-mini Levelなどオープンなモデルも進化が速い。オープンなモデルを強化する方向もIntroducing Cogito Preview(Cogito v1 Preview – a deepcogito Collection)など様々な成果が出ていて、公開モデルの性能も向上が続く。
- Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [164.5]
ネモトロン-Hは8Bと56B/47Bハイブリッド・マンバ・トランスフォーマーのファミリーである。 私たちは共通のTransformerモデルアーキテクチャにおけるほとんどの自己注意レイヤをMambaレイヤに置き換えます。 Nemotron-Hモデルは、他の同様のサイズのオープンソーストランスフォーマーモデルと比較して、精度が良いか低いかのどちらかを提供する。
論文 参考訳(メタデータ) (Fri, 04 Apr 2025 17:41:58 GMT) - 高速、高性能なMambaハイブリッドなLLM
- Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs [123.3]
135億のパラメータと高密度トランスフォーマーモジュールを持つ大規模言語モデル(LLM)であるPangu Ultraについて述べる。 このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。 我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
論文 参考訳(メタデータ) (Thu, 10 Apr 2025 15:41:51 GMT) - ファーウェイのLLM。ファーウェイのアクセラレータを活用して構築しているとのことだが現状論文が参照できない状態。詳細が気になるところ。
- Kimi-VL Technical Report [88.1]
Kimi-VLは視覚言語モデル(VLM)であり、高度なマルチモーダル推論、長いコンテキスト理解、強力なエージェント能力を提供する。 汎用 VLM として、Kimi-VL はマルチターンエージェントタスク(OSWorld など)に優れ、旗艦モデルと一致する。 Kimi-VLをベースとして、Kim-VL-Thinkingという先進的なロングシンキングモデルを導入する。
論文 参考訳(メタデータ) (Thu, 10 Apr 2025 06:48:26 GMT) - エージェントタスクでも高い性能を持つマルチモーダルLLM。Thinkingバージョンはパラメータ数と比較して高い性能。
- リポジトリはGitHub – MoonshotAI/Kimi-VL: Kimi-VL: Mixture-of-Experts Vision-Language Model for Multimodal Reasoning, Long-Context Understanding, and Strong Agent Capabilities, moonshotai/Kimi-VL-A3B-Instruct · Hugging Face
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond
- A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.6]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。 懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。 この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文 参考訳(メタデータ) (Thu, 27 Mar 2025 15:36:30 GMT) - 「In this survey, we provide a comprehensive overview of recent efforts aimed at improving reasoning efficiency in LRMs, with a particular focus on the unique challenges that arise in this new paradigm.」というサーベイ。Fugu-MT 論文翻訳(概要): Stop Overthinking: A Survey on Efficient Reasoning for Large Language Modelsでも思ったが新たな手法→新たな課題→包括的サーベイという流れが極めて速い。
- リポジトリはGitHub – XiaoYee/Awesome_Efficient_LRM_Reasoning: A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond
Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities
- Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.8]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。 議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。 適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (Sun, 23 Mar 2025 08:18:51 GMT) - 「The overall results of different LRMs under the Zero-Thinking, Summary-Thinking and Summary-Thinking-Plus mode for the evaluation of foundational capabilities.」の表5の結果が非常に興味深い。推論にパワーをかければよいというわけでもなく適応型戦略の重要性がよくわかる。
- リポジトリはGitHub – SCIR-SC-Qiaoban-Team/FreeEvalLM
Cosmos World Foundation Model Platform for Physical AI
- Cosmos World Foundation Model Platform for Physical AI [136.1]
私たちは、開発者が物理AIセットアップのためにカスタマイズされた世界モデルを構築するのを助けるために、Cosmos World Foundation Model Platformを紹介します。 我々のプラットフォームは、ビデオキュレーションパイプライン、事前訓練された世界ファンデーションモデル、事前訓練された世界ファンデーションモデルのポストトレーニング例、ビデオトークン化ツールをカバーしています。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 16:59:07 GMT) - 物理世界の理解と推論のためのマルチモーダルモデル、Cosmos-Reason1の提案。「In this paper, we present the Cosmos-Reason1 models that can understand the physical world and generate appropriate embodied decisions (e g , next step action) in natural language through long chain-of-thought reasoning processes.」「With Physical AI SFT and RL, Cosmos-Reason1 can learn intuitive physics, such as the arrow of time and object permanence, which existing models struggle with.」とCoTなLRMに似た構成。確かにこの分野に対してReasoning modelは有効そう。
- リポジトリはGitHub – nvidia-cosmos/cosmos-reason1: Cosmos-Reason1 models understand the physical common sense and generate appropriate embodied decisions in natural language through long chain-of-thought reasoning processes.
- Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control [98.2]
複数の空間制御入力に基づいて世界シミュレーションを生成する条件付き世界生成モデルであるCosmos-Transferを導入する。 提案したモデルを解析し,ロボット2Realや自律走行車データ豊かさを含む物理AIへの応用を実証するために評価を行う。
論文 参考訳(メタデータ) (Tue, 18 Mar 2025 17:57:54 GMT) - こちらも注目の「diffusion-based conditional world model for multimodal controllable world generation」
- リポジトリはGitHub – nvidia-cosmos/cosmos-transfer1: Cosmos-Transfer1 is a world-to-world transfer model designed to bridge the perceptual divide between simulated and real-world environments.
Mistral Small 3.1, Hunyuan-T1
週刊LLM、LRMという感じだが、先週も話題は多かった。Mistral Small 3.1 | Mistral AIは公開モデルでGemma 3などと競合する性能を主張。NVIDIAのllama-3.3-nemotron-super-49b-v1 Model by NVIDIA | NVIDIA NIMは高効率化の件で興味深い結果を出していた。
Tencentからは事前アナウンスの通りMamba hybridなLRM、Hunyuan-T1が発表された(腾讯混元、Hunyuan T1 – a Hugging Face Space by tencent、llm.hunyuan.T1)。Deepseek R1やo1と比べても十分な性能に見える。
AntropicからWeb検索との連動(Claude can now search the web \ Anthropic)、OpenAIからは新たな音声関連モデルが発表される(Introducing next-generation audio models in the API | OpenAI, OpenAI.fm)など、ビジネス上はLLM・LRMの提供だけでなく周辺領域を埋めていくことが重要になりそう。