Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge

Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.3]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文参考訳（メタデータ） (Thu, 30 Jan 2025 02:21:59 GMT)
Thinking-LLM-as-a-Judgeモデルを構築するための新しい手法EvalPlannerの提案。合成データ構築＋self-training loopな構成、ベンチマークでSelf taught evaluaterなど競合手法を超える性能とのこと。

コメントを残す

コメントを残す コメントをキャンセル