Are We on the Right Way to Assessing LLM-as-a-Judge? 

  • Are We on the Right Way to Assessing LLM-as-a-Judge? [16.3]
    人間のアノテーションを必要とせずにLCM審査員の質を評価する新しい評価スイートであるSageを紹介する。 合理的選択理論の公理に触発されたセージは、LLM-as-a-Judgeを測定するための2つの新しいレンズ(局所的な自己整合性と大域的な論理的整合性)を導入した。 Sage に基づいて,現在最先端の LLM は,スコアリングとペアワイズの両方において,審査員として機能する場合に,重大な信頼性上の問題があることを明らかにした。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 23:49:55 GMT)
  • LLM-as-a-Judgeを評価するベンチマークの提案、および「Our experiments reveal significant robustness deficiencies in current state-of-the-art models. We attribute these inconsistent judgments to a newly identified phenomenon called situational preference where models fail to maintain a stable internal gauging principle across different contexts. To address this, we demonstrate that implementing self-generated rubrics effectively mitigates situational preference and boosts judgment consistency. We also investigate the impact of fine-tuning and explanatory reasoning on evaluation performance.」との指摘。
  • リポジトリはEntroplay.ai

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です