ClidSum(Cross-LIngual Dialogue SUMmarization): クロスリンガルな対話要約データセットとmDialBARTモデル

  • ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization [41.7]
    本稿では,対話文書を用いた言語間要約システム構築のためのベンチマークデータセットClidSumを提案する。 それは、2つのサブセット(SAMSumとMediaSum)から67k以上の対話文書と、異なるターゲット言語における112k以上の注釈付き要約からなる。
    論文  参考訳(メタデータ)   (Fri, 11 Feb 2022 13:32:14 GMT)
    • クロスリンガルな対話要約データセットとモデルの提案。データセットの規模は大きく有用そう。モデルはmBART-50ベースで翻訳を併用する手法を上回る性能とのこと。
      • 8ページのSummarize-then-translate、Translate-then-summarizeを含む結果も非常に興味深い
    • リポジトリはGitHub – krystalan/ClidSum: ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization、現状ではコード等はアップロードされておらず今月中にリリース予定とのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です