DecompEval

  • DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.9]
    自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。 本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。 本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 16:16:51 GMT)
  • NLGの評価をQAタスクで行うもの。Instruction-Tuned Pre-Trained Modelsを使うアプローチで特別な学習が不要で効果的とのこと。論文中検証ではFLAN-T5が使用されている。
  • 近しいアプローチ&LLMで有効という報告もある通り有望なものだと思う。詳細な報告があるのはありがたい。
  • リポジトリはGitHub – kepei1106/DecompEval

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です