Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision 

  • Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.4]
    本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。 まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。 テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 17:11:54 GMT)
  • 「flawed reasoning path construction, critique generation, and data filtering」の3ステージからなるフレームワークAutoMathCritiqueでデータを構築、fine tuningするとともに、「Motivated by the insights of test-time, we introduce the critique model into the actor model’s exploration and learning process, introducing a critique-in-the-loop self-improvement method」を適用して効果を確認。 critique modelの有効性が分かる結果に見える(が、この構築は容易ではないかもしれない)
  • リポジトリはAutoMathCritique

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です