Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [55.7] 本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。 ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。 また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。 論文参考訳(メタデータ) (Sun, 16 Jul 2023 15:18:25 GMT)
9つのタスクからなる英語・中国語の談話ベンチマーク。タスクはSI (Speaker Identification)、ZPR (Zero Pronoun Recovery)、MRC (Machine Reading Comprehension)、NT (Novel Translation)、CCT (Classical Chinese Translation)、PT (Poetry Translation)、TE (Text Expansion)、TI (Text Infilling)、TC (Text Completion)。TEは「 TE is to insert appropriate words, phrases, or clauses for adding more details and deepening the meaning, while retaining coherence and cohesiveness.」とのこと。