Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training
Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.6] 本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。 我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。 私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。 論文参考訳(メタデータ) (Wed, 16 Jul 2025 17:59:24 GMT)
「Our work demonstrates that through careful algorithm design, including decoupled clipping, dynamic sampling, controlled KL regularization, and periodic reference policy resets, even small- scale models can achieve substantial reasoning improvements without the computational demands of larger architectures.」と小規模モデルでも有効な強化学習手法の提案。