Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate

  • Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.1]
    エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。 フレームワークのコードをGitHubで公開しています。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 07:03:32 GMT)
  • 評価のためにLLMエージェントを多数使い、かつ、人間の評価を取り入れるフレームワークの提案。GPT-4が一強という時代は終わりつつあり、このようなフレームワークでないと正しい性能評価が難しくなってきているのだろうと思う。
  • リポジトリはGAIR-NLP/scaleeval: Scalable Meta-Evaluation of LLMs as Evaluators (github.com)

Leveraging Large Language Models for NLG Evaluation: A Survey

  • Leveraging Large Language Models for NLG Evaluation: A Survey [56.2]
    LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。 既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。 この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
    論文  参考訳(メタデータ)   (Sat, 13 Jan 2024 15:59:09 GMT)
  • LLMを用いた評価手法のサーベイ
  • 「Taxonomy of research in NLG evaluation with large language models」の図がとても参考になる。

Q-Align

  • Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels [95.4]
    スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。 提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Thu, 28 Dec 2023 16:10:25 GMT)
  • 品質評価のためのLarge Multi-modality Model、Stage 1: Training Human Ratersから始まっているのが面白い。複数のvisual assessing taskにおいてSoTAを主張。
  • リポジトリはQ-Future/Q-Align: [IQA, IAA, VQA] All-in-one LMM/MLLM for visual scoring. (github.com)

TencentLLMEval

QualEval

  • QualEval: Qualitative Evaluation for Model Improvement [86.3]
    モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。 例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
    論文  参考訳(メタデータ)   (Mon, 6 Nov 2023 00:21:44 GMT)
  • LLMに対する定性評価フレームワークの提案。様々なプロンプトを駆使して評価を行っているようであるが、この結果は本当に正しいんだろうか。。。
  • リポジトリはGitHub – vmurahari3/QualEval: Your personal LLM data scientist、プロジェクトサイトはQualEval (vishvakmurahari.com)

Don’t Make Your LLM an Evaluation Benchmark Cheater

  • Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
    大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。 モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。 評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
    論文  参考訳(メタデータ)   (Fri, 3 Nov 2023 14:59:54 GMT)
  • LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
  • 「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。

AUTOCALIBRATE / 人間の好みに合わせたLLM利用の評価器

  • Calibrating LLM-Based Evaluator [92.2]
    マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。 人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。 複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
    論文  参考訳(メタデータ)   (Sat, 23 Sep 2023 08:46:11 GMT)
  • LLMを活用した評価器を人間の評価に寄せる手法を提案。人が評価したデータをもとに評価基準をLLMに書かせて、良い基準を選択&ICLというプロセス。
  • LLMを人っぽく使っている点が非常に興味深い。

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?

  • Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? [20.5]
    大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて素晴らしいパフォーマンスを示している。 現在の評価技術では、適切なベンチマーク、メトリクス、コスト、人間のアノテーションへのアクセスが欠如している。 本稿では,LLMに基づく評価器が多言語評価のスケールアップに有効かどうかを検討する。
    論文  参考訳(メタデータ)   (Thu, 14 Sep 2023 06:41:58 GMT)
  • LLMがNLPの評価器として多言語設定でうまくいくか評価した論文。「We see that the PA between the annotators and GPT is lowest compared to the PA between the human annotators for Japanese and Czech」(PA: Percentage Agreement )「Our work indicates that LLMbased evaluators need to be used cautiously in the multilingual setting, particularly on languages on which LLMs are known to perform poorly.」とのこと。
  • GPT-4とかだと英語で有効だった手法が日本語でも動く(ように見える)わけだが、正しく動作しているかどうか検証する必要がある、という当然と言えば当然の結果。

ChatEval

DecompEval

  • DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.9]
    自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。 本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。 本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 16:16:51 GMT)
  • NLGの評価をQAタスクで行うもの。Instruction-Tuned Pre-Trained Modelsを使うアプローチで特別な学習が不要で効果的とのこと。論文中検証ではFLAN-T5が使用されている。
  • 近しいアプローチ&LLMで有効という報告もある通り有望なものだと思う。詳細な報告があるのはありがたい。
  • リポジトリはGitHub – kepei1106/DecompEval