Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge 

  • Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.3]
    そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。 自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。 提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
    論文  参考訳(メタデータ)   (Thu, 30 Jan 2025 02:21:59 GMT)
  • Thinking-LLM-as-a-Judgeモデルを構築するための新しい手法EvalPlannerの提案。合成データ構築+self-training loopな構成、ベンチマークでSelf taught evaluaterなど競合手法を超える性能とのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です