LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

  • LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.1]
    人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。 人間のデータとの比較がないと、これらの評価の有効性が懸念される。 JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 14:56:13 GMT)
  • よく用いられるテクニックであるLLMを用いた評価に関するベンチマーク。「GPT-4o ranks first across several evaluation scenarios, but the Llama-3-70B and Mixtral-8x22B open models are relatively close, and outperform GPT-4o on some assessment types such as categorical sentence acceptability (CoLa) and graded summary quality (Summeval).」との結果。有効性はタスクによってかなり違う印象がある。
  • リポジトリはGitHub – dmg-illc/JUDGE-BENCH

Themis: Towards Flexible and Interpretable NLG Evaluation

Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions

  • Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions [77.8]
    LLM エージェントによる評価プロセス全体を自動化した LLM の自動アリーナを提案する。 最新のLLM17実験において,オートアリーナは人間の嗜好と最も高い相関関係を示した。
    論文  参考訳(メタデータ)   (Thu, 30 May 2024 17:19:19 GMT)
  • LLMの評価手法の提案、「By using LLM agents to generate questions, employing LLM candidates in peer battles, and evaluating responses using LLM committee discussions, Auto-Arena produces less-contaminated, robust, and trustworthy evaluation results.」というエージェント的手法。自動評価ができるということは自動改善もできそうな気がするが、合議制で良いデータを作りfine tuningをしていくとどのくらいまで性能が上がるんだろうか。
  • プロジェクトサイト・リーダーボードはEmbedded Streamlit App (auto-arena.github.io)、英語と中国語でランキングがかなり異なるのが面白い。

MATEval: A “Multi-Agent Text Evaluation framework”

  • MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.2]
    生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 MATEval: “Multi-Agent Text Evaluation framework”を提案する。 本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 10:41:47 GMT)
  • マルチエージェントなself-reflectionとCoTで評価するフレームワークの提案。「We mainly apply our framework to the evaluation of story texts generated by LLMs in Alipay business scenarios.」 とのことで現実的なデータ&様々な手法と比較されているのは興味深い。
  • リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

The Generative AI Paradox on Evaluation 

  • The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate [17.8]
    本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。 質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
    論文  参考訳(メタデータ)   (Fri, 9 Feb 2024 06:16:08 GMT)
  • 問題解決と評価能力は別なのでは?という問いへの検証。「Results indicate a significant disparity, with LLMs exhibiting lower performance in evaluation tasks compared to generation tasks」とのこと
  • TriviaQA での検証だが、おそらくタスクやデータセットによって異なるんだろうとは思う。評価用に生成AIを使うことは多いがそろそろGPT-4が他を圧倒というわけでもなくなっているので興味深い。

ACES: Translation Accuracy ChallengE Set

  • Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.4]
    ACESは146の言語ペアにまたがる対照的な課題セットです。 このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。 我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
    論文  参考訳(メタデータ)   (Mon, 29 Jan 2024 17:17:42 GMT)
  • 機械翻訳に関する評価手法に対するベンチマーク。当然といえば当然だがBLEUのスコアが非常に低い。「we advise the reader not to draw any conclusions based solely on the ACES-Score」とは書かれているものの・・・。
  • リポジトリはnikitam/ACES · Datasets at Hugging Face、ライセンスはCreative Commons Attribution Non-Commercial Share Alike 4.0 (cc-by-nc-sa-4.0)

Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate

  • Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.1]
    エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。 フレームワークのコードをGitHubで公開しています。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 07:03:32 GMT)
  • 評価のためにLLMエージェントを多数使い、かつ、人間の評価を取り入れるフレームワークの提案。GPT-4が一強という時代は終わりつつあり、このようなフレームワークでないと正しい性能評価が難しくなってきているのだろうと思う。
  • リポジトリはGAIR-NLP/scaleeval: Scalable Meta-Evaluation of LLMs as Evaluators (github.com)

Leveraging Large Language Models for NLG Evaluation: A Survey

  • Leveraging Large Language Models for NLG Evaluation: A Survey [56.2]
    LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。 既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。 この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
    論文  参考訳(メタデータ)   (Sat, 13 Jan 2024 15:59:09 GMT)
  • LLMを用いた評価手法のサーベイ
  • 「Taxonomy of research in NLG evaluation with large language models」の図がとても参考になる。

Q-Align

  • Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels [95.4]
    スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。 提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Thu, 28 Dec 2023 16:10:25 GMT)
  • 品質評価のためのLarge Multi-modality Model、Stage 1: Training Human Ratersから始まっているのが面白い。複数のvisual assessing taskにおいてSoTAを主張。
  • リポジトリはQ-Future/Q-Align: [IQA, IAA, VQA] All-in-one LMM/MLLM for visual scoring. (github.com)

TencentLLMEval