Robust Summarization Evaluation (RoSE)とAtomic Content Units (ACUs)

  • Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.2]
    既存の人間の評価プロトコルと要約のためのベンチマークは、アノテーション間の合意が低いか、統計的に重要な結論を導くのに必要な尺度が欠如している。 本稿では,微粒なセマンティック・ユニットに依存し,アノテータ間のアノテータ・アグリーメントを高い精度で実現する,改良された要約サリエンス・プロトコルであるAtomic Content Units(ACUs)を提案する。
    論文  参考訳(メタデータ)   (Thu, 15 Dec 2022 17:26:05 GMT)
  • 評価が難しい要約の評価について、新たなメトリクスとベンチマークの提案。どのくらい事実を含んでいるかという観点を入れているよう。
  • Yale-LILY/ROSE (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です