コンテンツへスキップ
- GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [107.0]
大規模言語モデル(LLM)の適応には、強化学習(RL)手法が普及しており、特にGroup Relative Policy Optimization(GRPO)などが用いられます。しかし、これらの手法は数万回のロールアウトを必要とし、非効率的です。そこで提案されたGEPA(Genetic-Pareto)は、自然言語を活用して試行錯誤から高レベルのルールを学び、少数のロールアウトで質的な向上を達成し、GRPOやMIPROv2を平均して10%以上上回る性能を示しました。
論文 参考訳(メタデータ) (Fri, 25 Jul 2025 17:42:32 GMT)
- 「We introduced GEPA, a novel prompt optimizer for arbitrary LLM agents and workflows. GEPA leverages reflective prompt evolution and Pareto-based selection, showing superior sample efficiency compared to reinforcement learning (GRPO) alongside robust generalization, while outperforming leading prompt optimizers (MIPROv2).」、プロンプトチューニングを行うアプローチとGRPOを比べられるのかという疑問はありつつ、他のチューニング手法よりも性能が高いとのこと。
- Checklists Are Better Than Reward Models For Aligning Language Models [99.2]
チェックリストフィードバックからの強化学習(RLCF)を提案する。 指示からチェックリストを抽出し,各項目の応答がどの程度満足するかを評価する。 これらのスコアをAI判断器と特殊検証器プログラムの両方を用いて組み合わせ、RLの報酬を計算する。
論文 参考訳(メタデータ) (Thu, 24 Jul 2025 17:58:00 GMT)
- 「”how can we grade responses to instructions in a manner that is automatic (requires no human annotation), flexible (considers all aspects of response quality), intuitive (aligned with perceptible differences in responses), and applicable to any instruction or response, to enable more effective use of RL in language model alignment?” 」に対してチェックリスト生成とチェックリストを元にしたフィードバックによる強化学習を提案。「From instructions, we extract checklists and evaluate how well responses satisfy each item—using both AI judges and specialized verifier programs—then combine these scores to compute rewards for RL. We compare RLCF with other alignment methods applied to a strong instruction following model (Qwen2.5-7B-Instruct) on five widely-studied benchmarks – RLCF is the only method to improve performance on every benchmark, including a 4-point boost in hard satisfaction rate on FollowBench, a 6-point increase on InFoBench, and a 3-point rise in win rate on Arena-Hard.」と効果を確認。
- 大規模モデルでチェックリスト生成、それを使って“Reinforcement Learning from Checklist Feedback” (RLCF)と、大規模モデルからの蒸留文脈での効果が大きそうだが性能向上に効果があるのが興味深い。(Limitationにある通り計算コストは高いとのこと)
- Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.6]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。 我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。 私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (Wed, 16 Jul 2025 17:59:24 GMT)
- 「Our work demonstrates that through careful algorithm design, including decoupled clipping, dynamic sampling, controlled KL regularization, and periodic reference policy resets, even small- scale models can achieve substantial reasoning improvements without the computational demands of larger architectures.」と小規模モデルでも有効な強化学習手法の提案。
- リポジトリはnvidia/Nemotron-Research-Reasoning-Qwen-1.5B · Hugging Face
- Scaling RL to Long Videos [107.4]
LongVILA-R1-7B は VideoMME などの長いビデオ QA ベンチマークで高い性能を発揮する。 LongVILA-R1は、視覚言語モデルにおけるロングビデオ推論に向けての第一歩となる。 各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
論文 参考訳(メタデータ) (Thu, 10 Jul 2025 17:47:40 GMT)
- 「(1) a large-scale dataset, LongVideo-Reason, comprising 52K long video QA pairs with high-quality reasoning annotations across diverse domains such as sports, games, and vlogs; (2) a two-stage training pipeline that extends VLMs with chain-of-thought supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a training infrastructure for long video RL, named Multi-modal Reinforcement Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a vLLM-based engine tailored for long video, using cached video embeddings for efficient rollout and prefilling.」を使用しての長い動画を理解するためのフレームワークの提案
- 「Unlike domains such as math or code reasoning, where structured supervision and benchmarks are readily available [7, 8], long video reasoning requires annotating complex temporal dynamics, goals, spatial relations, and narrative elements—often across minutes or hours of footage」と、コード生成や数学的推論とは異なる難しさがある。
- リポジトリはGitHub – NVlabs/Long-RL: Long-RL: Scaling RL to Long Sequences
- Robust Reward Modeling via Causal Rubrics [46.4]
リワードモデル(RM)は、人間のフィードバックによってLLM(Large Language Models)を整列させるのに基本的だが、報酬のハッキングに悩まされることが多い。 Cromeは、報酬のハッキングを軽減するために設計された明確な因果モデルに基づく、新しいフレームワークである。 RewardBenchの標準ベースラインを大幅に上回り、平均精度を最大5.4%向上させ、特定のカテゴリーで最大13.2%と7.2%のゲインを達成した。
論文 参考訳(メタデータ) (Thu, 19 Jun 2025 17:59:47 GMT)
- rewardハッキングへ対応可能な因果性を利用したフレームワーク、Crome (Causally Robust Reward Modeling)の提案
- Google Deepmindによる成果だがChromeと紛らわしいような・・・
- AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy [48.3]
強い推論モデルの開発において,教師付き微調整(SFT)と強化学習(RL)の相乗効果について検討した。 スケーリング戦略は 推理性能に顕著な改善をもたらします 我々のAceReason-Nemotron-1.1 7Bモデルは、Qwen2.5-7Bに基づく推論モデルにおいて、AceReason-Nemotron-1.0と新しい最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (Mon, 16 Jun 2025 09:27:48 GMT)
- LRM開発において重要なSFTとRLの関係を検証した論文。「Our results show that both scaling strategies substantially improve the reasoning abilities of large language models (LLMs).」とのこと。
- 「Interestingly, even strong SFT models with robust coding abilities benefit substantially from math-only RL training. This leads to further gains in coding performance.」のように隣接領域(?)での性能向上は、この分野だと色々なところで見られて興味深い性質だと思っている。
- リポジトリはnvidia/AceReason-Nemotron-1.1-7B · Hugging Face
- Spurious Rewards: Rethinking Training Signals in RLVR [130.3]
検証可能な報酬(RLVR)を用いた強化学習は,特定のモデルにおいて強い数学的推論を導出できることを示す。 例えば、RLVRはQwen2.5-Math-7BのMATH-500の性能を21.4%向上させた。 コード推論 — 実際のコード実行なしにコードで考える — は、RLVR以降、はるかに頻繁になる、独特なQwen2.5-Mathの振る舞いである。
論文 参考訳(メタデータ) (Thu, 12 Jun 2025 17:49:55 GMT)
- 「We show that reinforcement learning with verifiable rewards (RLVR) can elicit strong mathematical reasoning in certain models even with spurious rewards that have little, no, or even negative correlation with the correct answer. For example, RLVR improves MATH-500 performance for Qwen2.5-Math-7B in abso- lute points by 21.4% (random reward), 13.8% (format reward), 24.1% (incorrect label), 26.0% (1-shot RL), and 27.1% (majority voting)—nearly matching the 29.1% gained with ground truth rewards.」という直観に反する結果の報告と検証。
- 「Our findings have three main implications: base model pretraining significantly affects RLVR outcomes; even corrupted or spurious supervision can enhance reasoning when it triggers useful existing behaviors; and effects observed in one model family may not generalize to others. Our work highlights the importance of (1) testing across multiple models with differing pretraining distributions, and (2) testing across multiple different baselines, such as format and random rewards, when evaluating reinforcement learning techniques.」としている。モデルに依存し、結果が間違っていても一定効果があるのは本当に面白い。内部知識とそれを引き出すテクニックの間にはいまだギャップがあるということだろうか。。
- リポジトリはGitHub – ruixin31/Spurious_Rewards、https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f?pvs=4にBlog記事もある。
- Self-Adapting Language Models [44.5]
大規模言語モデル(LLM)は強力だが静的であり、新しいタスクや知識、例に対応して重みを適応するメカニズムが欠如している。 我々は,自己適応型LSM(Self-Adapting LLMs, SEAL)を導入する。 知識の定式化と数ショットの一般化の実験により、SEALは自己指向適応が可能な言語モデルに向けた有望なステップであることが示された。
論文 参考訳(メタデータ) (Thu, 12 Jun 2025 17:48:13 GMT)
- 「We propose Self-Adapting LLMs (SEAL), a framework that enables language models to improve themselves by generating their own synthetic data and optimization parameters (“self-edits”) in re- sponse to new data. The model is trained to produce these self-edits directly through token generation with the data provided in the model’s context. Self-edit generation is learned via reinforcement learning (RL) where the model is rewarded for generating self-edits (SE) that, when applied, improve the model’s performance at the target task.」という自己適合、自己進化、自己改善のアプローチ。SQuADやARC-AGI benchmark(のサブセット)を用いて効果を検証している。
- 合成データを介しての自己改善はやはり有効そうという印象。(今でも一定実用的であると思うが)AGIとかいう世界観を考えると時間的制約が解消できるかがポイントだろうか。(AIにも睡眠が必要と言いつつこの手の処理を行うような少し未来が妄想される)
- プロジェクトサイトはSelf-Adapting Language Models
- Self-Adapting Improvement Loops for Robotic Learning [30.8]
専門家によるデモンストレーションで訓練されたビデオ生成モデルは、ロボットタスクを解くためのパフォーマンスの高いテキスト条件付きビジュアルプランナーとして利用されてきた。 本研究では,自己生成トラジェクトリ上で,ドメイン内ビデオモデルを反復的に更新する自己改善ループ(SAIL)を提案する。 従来のドメイン内ビデオモデルトレーニングでは,新規タスクの繰り返しに対して,パフォーマンスが継続的に向上することが確認できた。
論文 参考訳(メタデータ) (Sat, 07 Jun 2025 04:34:37 GMT)
- 「we highlight that adaptation with large-scale pretrained text-conditioned video models is critical for facilitating self-improvement, by contributing text-conditioned generalization capabilities and motion priors.」とこちらは動画生成モデルを活用するアプローチ。
- プロジェクトサイトはSAIL
- Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning [122.8]
我々は、視覚的文書理解のために、視覚的に基底付けられたCoT推論を利用するように設計されたマルチモーダル推論フレームワークであるPoint-RFTを紹介した。 提案手法は2つの段階から構成される: まず、71Kの多様な視覚的推論問題からなるキュレートされたデータセットを用いてフォーマットの微調整を行い、それぞれが対応する視覚的要素に明示的に基づいた詳細なステップ・バイ・ステップの合理性でアノテートする。 ChartQAでは,テキストベースCoTのみに依存した強化微調整による精度83.92%を超え,精度を70.88%(言語微細化ベースライン)から90.04%に向上させる。
論文 参考訳(メタデータ) (Mon, 26 May 2025 08:54:14 GMT)
- MLLMに対するPost training、マルチモーダルなLRM化につながる成果
- J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [69.1]
このようなモデルをトレーニングするための強化学習アプローチであるJ1を紹介する。 本手法は,判断バイアスを軽減し,思考にインセンティブを与える検証可能な報酬を用いて,検証可能なプロンプトと検証不可能なプロンプトの両方を判断タスクに変換する。 評価基準を概説し、自己生成した基準回答と比較し、モデル応答の正しさを再評価することにより、モデルがより良い判断を下すことが判明した。
論文 参考訳(メタデータ) (Thu, 15 May 2025 14:05:15 GMT)
- Thinking-LLM-as-a-Judge modelsを構築するための強化学習レシピの提案。
- 「our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model.」とのこと。
- Assessing Judging Bias in Large Reasoning Models: An Empirical Study – arXiv最新論文の紹介など、LLM as a judgeなタスクでのLRM適用に効果があるという指摘はあったのでそれらと整合的な結果であるように思う。