CausalScore

  • CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5]
    本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。 実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 06:08:16 GMT)
  • 「we propose a novel metric CausalScore to quantify the relevance of responses by estimating the causal strength (Janzing et al , 2013a) between utterances and responses, where causal strength measures the strength of causal relations.」という指標の提案、および評価データセットの構築
  • リポジトリはGitHub – WilliamsToTo/causalscore_dialogue

LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

  • LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.1]
    人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。 人間のデータとの比較がないと、これらの評価の有効性が懸念される。 JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 14:56:13 GMT)
  • よく用いられるテクニックであるLLMを用いた評価に関するベンチマーク。「GPT-4o ranks first across several evaluation scenarios, but the Llama-3-70B and Mixtral-8x22B open models are relatively close, and outperform GPT-4o on some assessment types such as categorical sentence acceptability (CoLa) and graded summary quality (Summeval).」との結果。有効性はタスクによってかなり違う印象がある。
  • リポジトリはGitHub – dmg-illc/JUDGE-BENCH

Themis: Towards Flexible and Interpretable NLG Evaluation

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

  • Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models [92.7]
    プロメテウス2は、人間とGPT-4の判断を密接に反映するより強力な評価器である。 ユーザ定義評価基準でグループ化された、直接評価とペアのランキングフォーマットの両方を処理できる。 4つの直接評価ベンチマークと4つのペアのランキングベンチマークで、Prometheus 2は人間と独自のLM判事との相関と合意を最も高く評価している。
    論文  参考訳(メタデータ)   (Thu, 02 May 2024 17:59:35 GMT)
  • 評価のためのLMの提案。GPT-4を使ってデータを構築、「We choose Mistral-7B (Jiang et al , 2023a) and Mixtral8x7B (Jiang et al , 2024) as our base models, and merge the weights of evaluator LMs separately trained on the FEEDBACK COLLECTION and the PREFERENCE COLLECTION to obtain our resulting models, PROMETHEUS 2 (7B & 8x7B).」とのこと。
  • リポジトリはGitHub – prometheus-eval/prometheus-eval: Evaluate your LLM’s response with Prometheus 💯

AgentBoard

Competition-Level Problems are Effective LLM Evaluators

  • Competition-Level Problems are Effective LLM Evaluators [124.8]
    本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。 まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。 驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
    論文  参考訳(メタデータ)   (Tue, 5 Dec 2023 03:44:19 GMT)
  • LLMのデータ汚染問題を検証するためにCodeforceの問題を利用。「We find a significant decrease in perceived performance of GPT-4 on unseen problems, consistent across a range of difficulties, problem types, and experimental settings.」という結果でなかなか衝撃的。
  • 別の検証でも似たような指摘はあったし、Geminiのテクニカルレポートでも「 Evaluation on these benchmarks is challenging and may be affected by data contamination.We performed an extensive leaked data analysis after training to ensure the results we report here are as scientifically sound as possible, but still found some minor issues and decided not to report results on e g LAMBADA (Paperno et al , 2016).(gemini_1_report.pdf (storage.googleapis.com))」という指摘がある。正しい評価は難しい。

Holistic Evaluation of Text-To-Image Models

GPT-Fathom, NLPBench

  • NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.0]
    大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。 イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
    論文  参考訳(メタデータ)   (Wed, 27 Sep 2023 13:02:06 GMT)
  • NLPコースの試験から作られたデータセット
  • モデル×手法(Zero/Few shot, CoT, ToT)の結果が興味深い。
  • GitHub – LinxinS97/NLPBench: NLPBench: Evaluating NLP-Related Problem-solving Ability in Large Language Models

CoVe: Chain-of-Verification

  • Chain-of-Verification Reduces Hallucination in Large Language Models [81.0]
    言語モデルが与える反応を考慮し、誤りを訂正する能力について検討する。 モデルが最初に初期応答をドラフトするChain-of-Verification (CoVe) 法を開発した。 ウィキデータからクローズドブックMultiSpanQAまで,さまざまなタスクにおける幻覚の減少を示す。
    論文  参考訳(メタデータ)   (Wed, 20 Sep 2023 17:50:55 GMT)
  • 初期回答を作成→検証計画(検証用の質問)を作成→検証(回答・合意確認)→最終回答とすることでHallucinationを防ぐ取り組み
  • 近しい報告は多いので効果的であろうとは思うが、Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? – arXiv最新論文の紹介 (devneko.jp)の件もあり多言語で動作するかも興味がある。

DecompEval

  • DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.9]
    自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。 本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。 本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 16:16:51 GMT)
  • NLGの評価をQAタスクで行うもの。Instruction-Tuned Pre-Trained Modelsを使うアプローチで特別な学習が不要で効果的とのこと。論文中検証ではFLAN-T5が使用されている。
  • 近しいアプローチ&LLMで有効という報告もある通り有望なものだと思う。詳細な報告があるのはありがたい。
  • リポジトリはGitHub – kepei1106/DecompEval