Pitfalls in Evaluating Language Model Forecasters

  • Pitfalls in Evaluating Language Model Forecasters [45.4]
    我々はコミュニティとして、大きな言語モデルを評価するような結論に注意する必要があると論じている。 1) 時間的リークによる評価結果の信頼の難しさ,(2) 評価性能から実世界の予測への外挿の難しさ,の2つのカテゴリを識別する。
    論文  参考訳(メタデータ)   (Sat, 31 May 2025 21:49:17 GMT)
  • LLMの評価に関する落とし穴をまとめた論文
  • 「We identify two broad categories of issues: (1) difficulty in trusting evaluation results due to many forms of temporal leakage, and (2) difficulty in extrapolating from evaluation performance to real-world forecasting. Through systematic analysis and concrete examples from prior work, we demonstrate how evaluation flaws can raise concerns about current and future performance claims.」というまとめだが、評価は本当に難しい。

Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

  • Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.9]
    SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。 SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。 SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
    論文  参考訳(メタデータ)   (Thu, 01 May 2025 19:06:10 GMT)
  • 「SAGE instantiates a Sentient Agent that simulates human- like emotional changes and inner thoughts during interaction, providing a more realistic evaluation of the tested model in multi-turn conversations. At every turn, the agent reasons about (i) how its emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a numerical emotion trajectory and interpretable inner thoughts.」(SAGE=Sentient Agent as a Judge)という評価フレームワークの提案。「rankings produced by SAGE diverge markedly from Arena results, confirming that social cognition is orthogonal to generic helpfulness. 」とのこと。
  • リポジトリはdigitalhuman/SAGE at main · Tencent/digitalhuman · GitHub

xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

  • xVerify: Efficient Answer Verifier for Reasoning Model Evaluations [24.1]
    推論モデル評価のための効率的な答え検証器であるxVerifyを提案する。 xVerifyは同値判定において強い能力を示し、推論モデルによって生成された答えが参照回答と等価であるかどうかを効果的に決定できる。 テストセットと一般化セットの両方で実施された評価実験では、すべてのxVerifyモデルが全体のF1スコアと95%を超える精度を達成する。
    論文  参考訳(メタデータ)   (Mon, 14 Apr 2025 17:59:36 GMT)
  • LRM向けの「Verify Answer for Reasoning (VAR) dataset」と回答検証モデルの提案。「xVerify demonstrates strong capability in equivalence judgment, enabling it to effectively determine whether the answers produced by reasoning models are equivalent to reference answers across various types of objective questions.」とのことで、「xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o, while xVerify-3B-Ib surpasses GPT-4o in overall performance.」という性能。
  • リポジトリはGitHub – IAAR-Shanghai/xVerify: xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

Measuring AI Ability to Complete Long Tasks 

  • Measuring AI Ability to Complete Long Tasks [6.0]
    人間が通常、AIモデルが達成できるタスクを完了するのに要する時間を50%の成功率で測定します。 Claude 3.7 Sonnetのような現在のフロンティアAIモデルは50分程度で50%タイムの地平線を持つ。 AIモデルの時間的地平線の増加は、より信頼性が高く、ミスに適応する能力によって引き起こされているように思われる。
    論文  参考訳(メタデータ)   (Tue, 18 Mar 2025 17:59:31 GMT)
  • 「the time humans typically take to complete tasks that AI models can complete with 50% success rate」を定義とする「50%-task-completion time horizon」というメトリクスの提案と検討。「On these tasks, current frontier AI models such as Claude 3.7 Sonnet have a 50% time horizon of around 50 minutes」、「Furthermore, frontier AI time horizon has been doubling approximately every seven months since 2019, though the trend may have accelerated in 2024.」とのこと。
  • どのくらいの規模のソフトウェアを自動生成できるのか?という意味では参考になる指標だと思う。「Finally, we attempt to extrapolate the trend on our tasks to one-month (167 hours) AI (Section 7.1), finding that if both the trend continues and observed performance trends generalize to real-world tasks, an 80% confidence interval for the release date of AI that can complete 1-month long software tasks spans from late 2028 to early 2031」をどう評価するかは悩ましいが、人が一か月かけて開発するレベルのソフトウェアが自動生成できるようになるかも、というのはそうかもしれないという感覚もある。

LLM-guided Plan and Retrieval: A Strategic Alignment for Interpretable User Satisfaction Estimation in Dialogue

  • LLM-guided Plan and Retrieval: A Strategic Alignment for Interpretable User Satisfaction Estimation in Dialogue [5.1]
    PRAISEは効果的なユーザ満足度予測のための解釈可能なフレームワークである。 3つのモジュールを通して動作する。 ユーザ満足度推定タスクの3つのベンチマークで最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Thu, 06 Mar 2025 18:12:33 GMT)
  • ユーザ満足度を推定するためのフレームワーク「PRAISE (Plan and Retrieval Alignment for Interpretable Satisfaction Estimation)」の提案。AgenticなアプローチでStrategy Planner、Feature Retriever、Score Analyzerで構成。
  • 興味深い結果だが、LLM(API)が若干古いような気がしなくもない。最新のAPIだとどのような結果になるのだろうか。

IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Benchmarking Large and Small MLLMs 

  • Benchmarking Large and Small MLLMs [71.8]
    大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。 しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。 LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
    論文  参考訳(メタデータ)   (Sat, 04 Jan 2025 07:44:49 GMT)
  • MLLMの包括的評価。
  • 「GPT-4o establishes a new standard for multimodal understanding and reasoning across diverse input types, setting a benchmark in versatility and cognitive capacity.」のほか、「Although LLaVA-NeXT and Phi-3-Vision excel in specialized recognition tasks, they exhibit limitations in advanced reasoning and temporal sequence processing.」とのこと。
  • MSの調査でもあり、Phi4でのアップデートにも期待。microsoft/phi-4 · Hugging Face

MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

  • MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.9]
    MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。 開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。 この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
    論文  参考訳(メタデータ)   (Fri, 22 Nov 2024 18:59:54 GMT)
  • MLLMの評価に関するサーベイで、リポジトリ GitHub – BradyFU/Awesome-Multimodal-Large-Language-Models at Benchmarks が非常に充実。

LLaVA-Critic: Learning to Evaluate Multimodal Models

  • LLaVA-Critic: Learning to Evaluate Multimodal Models [110.1]
    本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
    論文  参考訳(メタデータ)   (Thu, 03 Oct 2024 17:36:33 GMT)
  • マルチモーダルなタスクに対しての評価を行うモデルの提案。データ構築もMLLMを多用するアプローチになっていて興味深いが、ライセンス的に大丈夫なんだろうかという若干の不安。
  • プロジェクトサイトはLLaVA-OneVision: Easy Visual Task Transfer (llava-vl.github.io)

Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge

  • Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.3]
    多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。 提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。 当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
    論文  参考訳(メタデータ)   (Thu, 03 Oct 2024 17:53:30 GMT)
  • 最近よく使われているLLM as a Judgeで生じるバイアスの整理と定量化に対する提案。「While Claude-3.5 generally shows the greatest resilience to biases, our findings reveal that even highly proficient models can struggle.」という結果は興味深い。(GPT-4oはClaude 3.5より結果が悪かった)
  • リポジトリはJustice or Prejudice? Quantifying Biases in LLM-as-a-Judge (llm-judge-bias.github.io)