Teaching Language Models to Critique via Reinforcement Learning 

  • Teaching Language Models to Critique via Reinforcement Learning [59.4]
    我々は、CTRLでトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。 また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
    論文  参考訳(メタデータ)   (Wed, 05 Feb 2025 02:18:46 GMT)
  • 「two-stage training approach: (1) synthesizing high-quality critiques by reasoning about execution feedback, then (2) refining the critic through reinforcement learning.」という2ステージ構成、強化学習(GRPO)を活用したcriticモデルの構築。
  • プロジェクトサイトはCTRL: Critic Training via Reinforcement Learning

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です