- Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.3]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。 自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。 提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (Thu, 30 Jan 2025 02:21:59 GMT) - Thinking-LLM-as-a-Judgeモデルを構築するための新しい手法EvalPlannerの提案。合成データ構築+self-training loopな構成、ベンチマークでSelf taught evaluaterなど競合手法を超える性能とのこと。