Robust Summarization Evaluation (RoSE)とAtomic Content Units (ACUs)

Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.2]
既存の人間の評価プロトコルと要約のためのベンチマークは、アノテーション間の合意が低いか、統計的に重要な結論を導くのに必要な尺度が欠如している。本稿では,微粒なセマンティック・ユニットに依存し,アノテータ間のアノテータ・アグリーメントを高い精度で実現する,改良された要約サリエンス・プロトコルであるAtomic Content Units(ACUs)を提案する。
論文参考訳（メタデータ） (Thu, 15 Dec 2022 17:26:05 GMT)
評価が難しい要約の評価について、新たなメトリクスとベンチマークの提案。どのくらい事実を含んでいるかという観点を入れているよう。
Yale-LILY/ROSE (github.com)

コメントを残す

コメントを残す コメントをキャンセル