Are We on the Right Way to Assessing LLM-as-a-Judge?
Are We on the Right Way to Assessing LLM-as-a-Judge? [16.3] 人間のアノテーションを必要とせずにLCM審査員の質を評価する新しい評価スイートであるSageを紹介する。 合理的選択理論の公理に触発されたセージは、LLM-as-a-Judgeを測定するための2つの新しいレンズ(局所的な自己整合性と大域的な論理的整合性)を導入した。 Sage に基づいて,現在最先端の LLM は,スコアリングとペアワイズの両方において,審査員として機能する場合に,重大な信頼性上の問題があることを明らかにした。 論文参考訳(メタデータ) (Wed, 17 Dec 2025 23:49:55 GMT)
LLM-as-a-Judgeを評価するベンチマークの提案、および「Our experiments reveal significant robustness deficiencies in current state-of-the-art models. We attribute these inconsistent judgments to a newly identified phenomenon called situational preference where models fail to maintain a stable internal gauging principle across different contexts. To address this, we demonstrate that implementing self-generated rubrics effectively mitigates situational preference and boosts judgment consistency. We also investigate the impact of fine-tuning and explanatory reasoning on evaluation performance.」との指摘。