- Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.2]
既存の人間の評価プロトコルと要約のためのベンチマークは、アノテーション間の合意が低いか、統計的に重要な結論を導くのに必要な尺度が欠如している。 本稿では,微粒なセマンティック・ユニットに依存し,アノテータ間のアノテータ・アグリーメントを高い精度で実現する,改良された要約サリエンス・プロトコルであるAtomic Content Units(ACUs)を提案する。
論文 参考訳(メタデータ) (Thu, 15 Dec 2022 17:26:05 GMT) - 評価が難しい要約の評価について、新たなメトリクスとベンチマークの提案。どのくらい事実を含んでいるかという観点を入れているよう。
- Yale-LILY/ROSE (github.com)