ClidSum(Cross-LIngual Dialogue SUMmarization): クロスリンガルな対話要約データセットとmDialBARTモデル

ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization [41.7]
本稿では,対話文書を用いた言語間要約システム構築のためのベンチマークデータセットClidSumを提案する。それは、2つのサブセット(SAMSumとMediaSum)から67k以上の対話文書と、異なるターゲット言語における112k以上の注釈付き要約からなる。
論文参考訳（メタデータ） (Fri, 11 Feb 2022 13:32:14 GMT)
- クロスリンガルな対話要約データセットとモデルの提案。データセットの規模は大きく有用そう。モデルはmBART-50ベースで翻訳を併用する手法を上回る性能とのこと。
  - 8ページのSummarize-then-translate、Translate-then-summarizeを含む結果も非常に興味深い
- リポジトリはGitHub – krystalan/ClidSum: ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization、現状ではコード等はアップロードされておらず今月中にリリース予定とのこと。

コメントを残す

コメントを残す コメントをキャンセル