An Empirical Study on Eliciting and Improving R1-like Reasoning Models 

  • An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.5]
    RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。 我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。 また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 15:34:27 GMT)
  • 様々な研究機関が取り組むR1 like(o1 like)なモデル開発のテクニカルレポート。「By effectively utilizing tool manipulation, STILL-3-TOOL-32B achieves an impressive accuracy of 86.67 (greedy search) on AIME 2024. Remarkably, this ability can be activated with only a small number of high-quality training instances 」というのは面白く、ツールの利用にも拡張が進みつつあるよう。
  • リポジトリはGitHub – RUCAIBox/Slow_Thinking_with_LLMs: A series of technical report on Slow Thinking with LLM

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です