Self-Generated Critiques Boost Reward Modeling for Language Models

  • Self-Generated Critiques Boost Reward Modeling for Language Models [57.6]
    Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。 実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 18:28:26 GMT)
  • 「By harnessing LLMs’ ability to generate and refine critiques, Critic-RM implements a novel self-improvement approach that improves both critique quality and reward prediction accuracy.」という結論。
  • 自己評価、自己批判を取り入れるアプローチが流行っている感がある。解釈は難しいが、生成と評価・批判は能力として異なりうまく使うことで相互の性能を上げられるということなんだろうか。(WEBには批判・批評データがとても多いからとかだとやや悲しいが、一方でそれで性能が上がるのであれば…という微妙な気持ち)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です