コンテンツへスキップ
- PRISM: Demystifying Retention and Interaction in Mid-Training [20.2]
PRISMは、大規模言語モデルにおける中級学習設計の選択に関する総合的な実証的研究である。 約27Bの高品位トークンの中間トレーニングでは, 数学では+15から+40点, コードでは+5から+12点, 科学ベンチマークでは+6から+13点, 一般性能は+6から+13点となる。
論文 参考訳(メタデータ) (Tue, 17 Mar 2026 19:04:33 GMT)
- 「State-of-the-art models now incorporate an additional intermediate stage, mid-training, in which higher-quality, domain-focused data mixtures are used to imbue reasoning capabilities before downstream fine-tuning and reinforcement learning (RL) (Team et al , 2025; Olmo et al , 2025).」とのことで、Mid trainingに関する有効性の分析。
- プロジェクトサイトはPRISM: Demystifying Retention and Interaction in Mid-Training
- Decoding the Critique Mechanism in Large Reasoning Models [50.8]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。 中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。 チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (Tue, 17 Mar 2026 10:03:30 GMT)
- 「we demonstrate that the critique vector influences test-time scaling: increasing it helps the model better recognize its mistakes and improve its final accuracy, while decreasing it degrades performance.」というのがとても興味深い。
- リポジトリはGitHub – mail-research/lrm-critique-vectors · GitHub