評価指標 – ページ 2 – arXiv最新論文の紹介

DecompEval

DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.9]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文参考訳（メタデータ） (Thu, 13 Jul 2023 16:16:51 GMT)
NLGの評価をQAタスクで行うもの。Instruction-Tuned Pre-Trained Modelsを使うアプローチで特別な学習が不要で効果的とのこと。論文中検証ではFLAN-T5が使用されている。
近しいアプローチ＆LLMで有効という報告もある通り有望なものだと思う。詳細な報告があるのはありがたい。
リポジトリはGitHub – kepei1106/DecompEval

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation [72.3]
既存のテキスト対画像合成の自動評価は、画像とテキストのマッチングスコアしか提供できない。マルチグラニュラリティ合成による評価スコアを提供する新しいフレームワークであるLLMScoreを提案する。
論文参考訳（メタデータ） (Thu, 18 May 2023 16:57:57 GMT)
LLMを用いた画像生成の評価指標の提案、優れた結果だが「GPT-4 based LLMScore (Error Counting) is only comparable with GPT-3.5」というのが不思議
リポジトリはGitHub – YujieLu10/LLMScore: LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation

FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [130.4]
FActScoreは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。我々は、最先端の商用LMが生み出した人々のFActScoreを得るために、広範囲にわたる人的評価を行う。また、検索と強力な言語モデルを用いてFActScoreを2%未満のエラー率で推定する自動モデルも導入する。
論文参考訳（メタデータ） (Tue, 23 May 2023 17:06:00 GMT)
生成されたテキストの事実性を判定する手法の提案と評価。生成分を事実情報まで分割し、知識ソースとの整合性を確認するアプローチのよう。
検証結果も非常に興味深い。特にOSSモデルのスコアはベースモデルの性能が影響しているように見え、チャットの模倣と基礎モデルの能力は別物であることを示唆（The False Promise of Imitating Proprietary LLMsと同じ示唆）している気がする。

Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization [91.9]
本研究は,抽出要約に現れる5種類の広い不信問題を持つ類型論を定義する。我々は15の多様な抽出システムによって生成された1500の英語の要約の中から、これらの問題をラベル付けするよう人間に求めている。これらの問題を自動検出するために,要約のための既存の5つの信頼度評価指標は,人間の判断と相関が低いことがわかった。
論文参考訳（メタデータ） (Thu, 8 Sep 2022 03:25:18 GMT)
- 一般的に抽象型要約よりも抽出型要約の要約の方が意味的な忠実度が高いと思われているが、人間による大規模検証によるとそうでもないという結果。
- 既存の各種評価指標との対応を見ると要約の自動評価簡単ではないなーという印象。
- ZhangShiyue/extractive_is_not_faithful (github.com)

Difficulty-Aware Machine Translation Evaluation [20.0]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文参考訳（メタデータ） (Fri, 30 Jul 2021 02:45:36 GMT)
- BERTScore をベースに翻訳の難しさ（複数翻訳モデルの一致の悪さ）を考慮したDifficulty-Aware BERTScoreを定義、評価指標として有効に動作することを検証した論文。よく用いられるBLEUは翻訳の品質評価において良好な結果を示さないことが分かっており、自動評価指標の開発は重要である。品質評価において難易度の考慮は自然な発想であり、本論文の難易度の定義も違和感がない。良さそうな指標だと思う。
- ソースコード等はhttps://github.com/NLP2CT/Difficulty-Aware-MT-Evaluationで公開されている。

To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation [6.0]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。 BLEUのみの使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文参考訳（メタデータ） (Thu, 22 Jul 2021 17:22:22 GMT)
- 機械翻訳モデルが複数あったときにどのモデルをリリースすべきかは悩ましい問題である（FuguMTでも最終的には目検を行った後にリリースモデルを決めている）。この論文では幅広い検証の結果、BLEUは使用すべきではなくCOMET（使用不可の言語の場合はChrF）の使用を推奨している。
- リポジトリはhttps://github.com/MicrosoftTranslator/ToShipOrNotToShipであり、今後詳細を公開予定とのこと。
- COMETのリポジトリはhttps://github.com/Unbabel/COMETにある。