DecompEval – arXiv最新論文の紹介

DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.9]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文参考訳（メタデータ） (Thu, 13 Jul 2023 16:16:51 GMT)
NLGの評価をQAタスクで行うもの。Instruction-Tuned Pre-Trained Modelsを使うアプローチで特別な学習が不要で効果的とのこと。論文中検証ではFLAN-T5が使用されている。
近しいアプローチ＆LLMで有効という報告もある通り有望なものだと思う。詳細な報告があるのはありがたい。
リポジトリはGitHub – kepei1106/DecompEval

コメントを残す

コメントを残す コメントをキャンセル