コンテンツへスキップ
- Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。 モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。 評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (Fri, 3 Nov 2023 14:59:54 GMT)
- LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
- 「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。
- Calibrating LLM-Based Evaluator [92.2]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。 人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。 複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (Sat, 23 Sep 2023 08:46:11 GMT)
- LLMを活用した評価器を人間の評価に寄せる手法を提案。人が評価したデータをもとに評価基準をLLMに書かせて、良い基準を選択&ICLというプロセス。
- LLMを人っぽく使っている点が非常に興味深い。
- Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? [20.5]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて素晴らしいパフォーマンスを示している。 現在の評価技術では、適切なベンチマーク、メトリクス、コスト、人間のアノテーションへのアクセスが欠如している。 本稿では,LLMに基づく評価器が多言語評価のスケールアップに有効かどうかを検討する。
論文 参考訳(メタデータ) (Thu, 14 Sep 2023 06:41:58 GMT)
- LLMがNLPの評価器として多言語設定でうまくいくか評価した論文。「We see that the PA between the annotators and GPT is lowest compared to the PA between the human annotators for Japanese and Czech」(PA: Percentage Agreement )「Our work indicates that LLMbased evaluators need to be used cautiously in the multilingual setting, particularly on languages on which LLMs are known to perform poorly.」とのこと。
- GPT-4とかだと英語で有効だった手法が日本語でも動く(ように見える)わけだが、正しく動作しているかどうか検証する必要がある、という当然と言えば当然の結果。
- DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.9]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。 本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。 本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (Thu, 13 Jul 2023 16:16:51 GMT)
- NLGの評価をQAタスクで行うもの。Instruction-Tuned Pre-Trained Modelsを使うアプローチで特別な学習が不要で効果的とのこと。論文中検証ではFLAN-T5が使用されている。
- 近しいアプローチ&LLMで有効という報告もある通り有望なものだと思う。詳細な報告があるのはありがたい。
- リポジトリはGitHub – kepei1106/DecompEval
- A Survey on Evaluation of Large Language Models [69.7]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。 本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (Thu, 6 Jul 2023 16:28:35 GMT)
- LLMの評価に関するサーベイ。研究が盛んな分野ではあるがサーベイが出るのはうれしい(そして素早いなと思う)
- 2ページ目の図が分かりやすく、様々な側面(NLPの性能、頑健性、倫理、社会科学、・・・)からLLMの検証が行われていることが分かる。それだけ注目度が高いともいえそう。
- リポジトリがあり、こちらも参考になる GitHub – MLGroupJLU/LLM-eval-survey
- FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [130.4]
FActScoreは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。 我々は、最先端の商用LMが生み出した人々のFActScoreを得るために、広範囲にわたる人的評価を行う。 また、検索と強力な言語モデルを用いてFActScoreを2%未満のエラー率で推定する自動モデルも導入する。
論文 参考訳(メタデータ) (Tue, 23 May 2023 17:06:00 GMT)
- 生成されたテキストの事実性を判定する手法の提案と評価。生成分を事実情報まで分割し、知識ソースとの整合性を確認するアプローチのよう。
- 検証結果も非常に興味深い。特にOSSモデルのスコアはベースモデルの性能が影響しているように見え、チャットの模倣と基礎モデルの能力は別物であることを示唆(The False Promise of Imitating Proprietary LLMsと同じ示唆)している気がする。
- Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization [91.9]
本研究は,抽出要約に現れる5種類の広い不信問題を持つ類型論を定義する。 我々は15の多様な抽出システムによって生成された1500の英語の要約の中から、これらの問題をラベル付けするよう人間に求めている。 これらの問題を自動検出するために,要約のための既存の5つの信頼度評価指標は,人間の判断と相関が低いことがわかった。
論文 参考訳(メタデータ) (Thu, 8 Sep 2022 03:25:18 GMT)