- SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.8]
高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。 読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。 最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 23 May 2022 17:02:07 GMT)- 100のストーリー、500の質問、2000の要約からなるデータセット。ドキュメントの長さが平均5000wordsと長い。クラウドソーシングによる構築だが品質保持のための工夫がされているとのこと。
- リポジトリはGitHub – nyu-mll/SQuALITY: Query-focused summarization data