Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators 

  • Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.8]
    本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。 3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。 我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
    論文  参考訳(メタデータ)   (Mon, 21 Apr 2025 17:33:23 GMT)
  • 「we seek to understand the feasibility of using LLM-judges in place of typically used RMs in testtime compute procedures.」というモチベーションでの「we introduce the Judge Evaluation for Test-Time Scaling (JETTS) benchmark, which evaluates judge performance in three domains (math reasoning, code generation, and instruction following) under three task settings: response reranking, step-level beam search, and critique-based response refinement.」というベンチマークの提案。「We find that weak judges can help strong generators in easier tasks, such as instruction following, but not in reasoning-intensive tasks like coding or math. Larger judges bring the most benefit for math and instruction following tasks, but no evaluated judges are able to reliably improve generator performance for coding. Lastly, while natural language critiques are touted as a defining advantage of judges over RMs, we find that such critiques have significant room for improvement in terms of utility.」となかなか厳しい結果。
  • リポジトリはGitHub – SalesforceAIResearch/jetts-benchmark: Code repository for the paper “Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators”

Assessing Judging Bias in Large Reasoning Models: An Empirical Study

  • Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.9]
    DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。 本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
    論文  参考訳(メタデータ)   (Mon, 14 Apr 2025 07:14:27 GMT)
  • LRMにおけるJudge時のバイアスに関する検証
  • 基本的にLRMのJudgeに関する性能は高く「Through investigation of bandwagon, authority, position, and distraction biases, we uncover four key findings: (1) despite their advanced reasoning capabilities, LRMs remain susceptible to the above biases; (2) LRMs demonstrate better robustness than LLMs specifically on fact-related datasets; (3) LRMs exhibit notable position bias, preferring options in later positions; and (4) we identify a novel “superficial reflection bias” where phrases mimicking reasoning (e g , “wait, let me think…”) significantly influence model judgments.」とのこと。
  • 「We identify a novel “superficial reflection bias” in LRMs, where phrases mimicking reasoning significantly influence judging outcomes, demonstrating how reasoning mechanisms can introduce new vulnerabilities in automated evaluation.」という点、おそらく学習過程によるものであろうということが興味深い。

LLM-guided Plan and Retrieval: A Strategic Alignment for Interpretable User Satisfaction Estimation in Dialogue

  • LLM-guided Plan and Retrieval: A Strategic Alignment for Interpretable User Satisfaction Estimation in Dialogue [5.1]
    PRAISEは効果的なユーザ満足度予測のための解釈可能なフレームワークである。 3つのモジュールを通して動作する。 ユーザ満足度推定タスクの3つのベンチマークで最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 18:12:33 GMT)
  • ユーザ満足度を推定するためのフレームワーク「PRAISE (Plan and Retrieval Alignment for Interpretable Satisfaction Estimation)」の提案。AgenticなアプローチでStrategy Planner、Feature Retriever、Score Analyzerで構成。
  • 興味深い結果だが、LLM(API)が若干古いような気がしなくもない。最新のAPIだとどのような結果になるのだろうか。

Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models

  • Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.9]
    Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。 既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。 本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Feb 2025 04:50:43 GMT)
  • RAGを対象とした評価手法、「 Judge-Consistency (ConsJudge), a method that enhances LLM-based judgment models to generate more accurate evaluations for RAG models in a self-improvement framework.」の提案。
  • リポジトリはGitHub – OpenBMB/ConsJudge

Judging the Judges: A Collection of LLM-Generated Relevance Judgements

  • Judging the Judges: A Collection of LLM-Generated Relevance Judgements [37.1]
    本稿では,SIGIR 2024におけるLLMJudgeの大規模自動妥当性評価の結果をベンチマークし,報告する。 8つの国際チームが作成したTREC 2023ディープラーニングトラック関連判定のラベルを42 LLMで作成し、ベンチマークする。
    論文  参考訳(メタデータ)   (Wed, 19 Feb 2025 17:40:32 GMT)
  • 「This paper benchmarks and reports on the results of a large-scale automatic relevance judgment evaluation, the LLMJudge challenge at SIGIR 2024, where different relevance assessment approaches were proposed.」とのことでいろいろ検証なアプローチのまとめ。

Preference Leakage: A Contamination Problem in LLM-as-a-judge

  • Preference Leakage: A Contamination Problem in LLM-as-a-judge [70.0]
    審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。 本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
    論文  参考訳(メタデータ)   (Mon, 03 Feb 2025 17:13:03 GMT)
  • LLM-as-a-jedgeを使用するときの潜在的なLeakの可能性について指摘した論文。同じモデル、派生モデル、同じファミリーのモデルでバイアスがどの程度か検証。「The results of our main experiment, measured using the proposed preference leakage score, reveal a clear bias in each judge toward its respective student model.」と今までも同じモデルの出力を好むような指摘はあったが、それを裏付ける結果となっている。「We also observe that this bias is more pronounced in comparable model pairs and larger student models.」の大きなモデルで問題が大きいというのも興味深い。
  • リポジトリはGitHub – David-Li0406/Preference-Leakage

Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge 

  • Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.3]
    そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。 自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。 提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
    論文  参考訳(メタデータ)   (Thu, 30 Jan 2025 02:21:59 GMT)
  • Thinking-LLM-as-a-Judgeモデルを構築するための新しい手法EvalPlannerの提案。合成データ構築+self-training loopな構成、ベンチマークでSelf taught evaluaterなど競合手法を超える性能とのこと。

LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

A Survey on LLM-as-a-Judge / From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

LLM as a judgeの必要性は至る所で指摘されていて、論文もとても多い。先週2つのサーベイがでていた。いずれも複数研究機関の研究者による共著でリポジトリを公開する形式となっている。1研究機関のチームで調査するのはしんどい時代になっているのだろうか。。。(後者のリポジトリ公開は非常にありがたい)

  • A Survey on LLM-as-a-Judge [10.3]
    大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。 LLMは、従来の専門家主導の評価に代わる魅力的な代替手段である。 LLM-as-a-Judgeシステムはどうやって構築できるのか?
    論文  参考訳(メタデータ)   (Sat, 23 Nov 2024 16:03:35 GMT)
  • リポジトリはGitHub – IDEA-FinAI/LLM-as-a-Judge
  • From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [32.6]
    人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。 大規模言語モデル(LLM)の最近の進歩は”LLM-as-a-judge”パラダイムを刺激している。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 17:28:44 GMT)
  • プロジェクトサイトはLLM-as-a-judge、リポジトリ(論文リストなど)はGitHub – llm-as-a-judge/Awesome-LLM-as-a-judge

Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering 

  • Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering [51.3]
    検証工学は、基礎モデルの時代のために特別に設計された新しいポストトレーニングパラダイムである。 検証工学のプロセスは,検索,検証,フィードバックの3段階に分類する。
    論文  参考訳(メタデータ)   (Mon, 18 Nov 2024 12:04:52 GMT)
  • 「The essence of verifier engineering lies in extending the construction of supervision signals beyond traditional manual feature extraction and data annotation. Instead, it utilizes a suite of effective automated verifiers to perform verification tasks and provide meaningful feedback to foundation models.」というverifier engineering の提案。重要性が増している分野なのは間違いないと思う、
  • リポジトリはGitHub – icip-cas/Verifier-Engineering: Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering