A Survey on Evaluation of Multimodal Large Language Models / A Comprehensive Survey of Story Evaluation

大規模言語モデル(LLM)及びそのマルチモーダルな拡張(MLLM)でできるようになったこと(できているようにみえること)は多いが、正しい評価をどうすればよいか不明瞭なものは多い。サーベイも数多く出ている。

  • A Survey on Evaluation of Multimodal Large Language Models [11.6]
    マルチモーダル大規模言語モデル(MLLM)は、強力な大規模言語モデル(LLM)を統合することで、人間の知覚と推論システムを模倣する この枠組みはMLLMに人間のような能力を与え、人工知能(AGI)の実現への潜在的経路を示唆している。 GPT-4V や Gemini のような全周MLLM の出現に伴い,様々な次元にわたってその能力を評価するための評価手法が開発されている。
    論文  参考訳(メタデータ)   (Wed, 28 Aug 2024 13:05:55 GMT)
  • MLLMの評価に関するサーベイ
  • What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.6]
    ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。 まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。 本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
    論文  参考訳(メタデータ)   (Mon, 26 Aug 2024 20:35:42 GMT)
  • ストーリーに対する評価のサーベイ

A Survey on Evaluating Large Language Models in Code Generation Tasks

  • A Survey on Evaluating Large Language Models in Code Generation Tasks [30.3]
    本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。 自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
    論文  参考訳(メタデータ)   (Thu, 29 Aug 2024 12:56:06 GMT)
  • 盛り上がってきているコード生成タスクについて、その評価手法をまとめたサーベイ
  • 機械翻訳でも一般的な「Evaluation Based on Similarity」のほか、「Execution-Based Evaluation」、「 Feedback-Based Evaluation」などがあって興味深い。

CoverBench: A Challenging Benchmark for Complex Claim Verification 

  • CoverBench: A Challenging Benchmark for Complex Claim Verification [31.7]
    複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。 CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。 低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
    論文  参考訳(メタデータ)   (Tue, 6 Aug 2024 17:58:53 GMT)
  • LLMからの出力検証にフォーカスしたベンチマークの提案。Gemini 1.5 Proでも十分なスコアとはいいがたく、非常に難しいタスクに思える。
  • リポジトリはgoogle/coverbench · Datasets at Hugging Face

Self-Taught Evaluators 

  • Self-Taught Evaluators [77.9]
    本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。 我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
    論文  参考訳(メタデータ)   (Mon, 05 Aug 2024 17:57:02 GMT)
  • 基本的に簡単ではない評価を行うモデルを合成データ経由で作る研究。
  • 「Our Self-Taught evaluator with iterative training over these synthetic preferences greatly boosts the accuracy of a strong seed LLM (Llama3-70B-Instruct) as an evaluator, from 75.4 to 88.7 on RewardBench, a new state-ofthe-art for generative LLM-as-a-Judge methods.」とのこと。通常のモデル構築における合成データの有効性を鑑みると驚きではないものの、(これ以外でも最近のself-なんとかな報告を見ると)この方向性を突き詰めるとAGIに・・・という気がしないでもない。

Self taughtだとSTaR(Self-Taught Reasoner)関連も面白い。

  • Lean-STaR: Learning to Interleave Thinking and Proving [53.9]
    証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。 Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
    論文  参考訳(メタデータ)   (Sun, 14 Jul 2024 01:43:07 GMT)
  • Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking [34.6]
    自己学習型推論器の一般化であるQuiet-STaRについて述べる。 LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。 GSM8KとCommonsenseQAではゼロショットの改善が見られた。
    論文  参考訳(メタデータ)   (Thu, 14 Mar 2024 17:58:16 GMT)
  • STaR: Bootstrapping Reasoning With Reasoning [39.5]
    自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。 結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
    論文  参考訳(メタデータ)   (Mon, 28 Mar 2022 03:12:15 GMT)

LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

  • LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.1]
    人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。 人間のデータとの比較がないと、これらの評価の有効性が懸念される。 JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 14:56:13 GMT)
  • よく用いられるテクニックであるLLMを用いた評価に関するベンチマーク。「GPT-4o ranks first across several evaluation scenarios, but the Llama-3-70B and Mixtral-8x22B open models are relatively close, and outperform GPT-4o on some assessment types such as categorical sentence acceptability (CoLa) and graded summary quality (Summeval).」との結果。有効性はタスクによってかなり違う印象がある。
  • リポジトリはGitHub – dmg-illc/JUDGE-BENCH

Themis: Towards Flexible and Interpretable NLG Evaluation

Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions

  • Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions [77.8]
    LLM エージェントによる評価プロセス全体を自動化した LLM の自動アリーナを提案する。 最新のLLM17実験において,オートアリーナは人間の嗜好と最も高い相関関係を示した。
    論文  参考訳(メタデータ)   (Thu, 30 May 2024 17:19:19 GMT)
  • LLMの評価手法の提案、「By using LLM agents to generate questions, employing LLM candidates in peer battles, and evaluating responses using LLM committee discussions, Auto-Arena produces less-contaminated, robust, and trustworthy evaluation results.」というエージェント的手法。自動評価ができるということは自動改善もできそうな気がするが、合議制で良いデータを作りfine tuningをしていくとどのくらいまで性能が上がるんだろうか。
  • プロジェクトサイト・リーダーボードはEmbedded Streamlit App (auto-arena.github.io)、英語と中国語でランキングがかなり異なるのが面白い。

MATEval: A “Multi-Agent Text Evaluation framework”

  • MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.2]
    生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 MATEval: “Multi-Agent Text Evaluation framework”を提案する。 本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
    論文  参考訳(メタデータ)   (Thu, 28 Mar 2024 10:41:47 GMT)
  • マルチエージェントなself-reflectionとCoTで評価するフレームワークの提案。「We mainly apply our framework to the evaluation of story texts generated by LLMs in Alipay business scenarios.」 とのことで現実的なデータ&様々な手法と比較されているのは興味深い。
  • リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)

The Generative AI Paradox on Evaluation 

  • The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate [17.8]
    本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。 質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
    論文  参考訳(メタデータ)   (Fri, 9 Feb 2024 06:16:08 GMT)
  • 問題解決と評価能力は別なのでは?という問いへの検証。「Results indicate a significant disparity, with LLMs exhibiting lower performance in evaluation tasks compared to generation tasks」とのこと
  • TriviaQA での検証だが、おそらくタスクやデータセットによって異なるんだろうとは思う。評価用に生成AIを使うことは多いがそろそろGPT-4が他を圧倒というわけでもなくなっているので興味深い。

ACES: Translation Accuracy ChallengE Set

  • Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.4]
    ACESは146の言語ペアにまたがる対照的な課題セットです。 このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。 我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
    論文  参考訳(メタデータ)   (Mon, 29 Jan 2024 17:17:42 GMT)
  • 機械翻訳に関する評価手法に対するベンチマーク。当然といえば当然だがBLEUのスコアが非常に低い。「we advise the reader not to draw any conclusions based solely on the ACES-Score」とは書かれているものの・・・。
  • リポジトリはnikitam/ACES · Datasets at Hugging Face、ライセンスはCreative Commons Attribution Non-Commercial Share Alike 4.0 (cc-by-nc-sa-4.0)