DIONYSUS: dynamic input optimization in pre-training for dialogue summarization

  • DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.7]
    DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。 実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
    論文  参考訳(メタデータ)   (Tue, 20 Dec 2022 06:21:21 GMT)
  • 対話要約のための事前学習モデル。特にトレーニング例が少ない場合の性能が高く、PEGASUSを上回る。また、10例の学習で1000例でfine tuningしたT5を上回るとのこと。

ClidSum(Cross-LIngual Dialogue SUMmarization): クロスリンガルな対話要約データセットとmDialBARTモデル

  • ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization [41.7]
    本稿では,対話文書を用いた言語間要約システム構築のためのベンチマークデータセットClidSumを提案する。 それは、2つのサブセット(SAMSumとMediaSum)から67k以上の対話文書と、異なるターゲット言語における112k以上の注釈付き要約からなる。
    論文  参考訳(メタデータ)   (Fri, 11 Feb 2022 13:32:14 GMT)
    • クロスリンガルな対話要約データセットとモデルの提案。データセットの規模は大きく有用そう。モデルはmBART-50ベースで翻訳を併用する手法を上回る性能とのこと。
      • 8ページのSummarize-then-translate、Translate-then-summarizeを含む結果も非常に興味深い
    • リポジトリはGitHub – krystalan/ClidSum: ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization、現状ではコード等はアップロードされておらず今月中にリリース予定とのこと。

TWEETSUMM : 対話要約データセット

対話要約データセットとモデルのサーベイ

  • A Survey on Dialogue Summarization: Recent Advances and New Frontiers [19.1]
    本稿では、利用可能な研究データセットの概要と、入力対話の領域に従って既存の作業を要約し、統一されたメトリクスの下でリーダーボードを編成する。 コミュニティに迅速なアクセスと,この課題の全体像を提供し,今後の研究を動機付けることを願っている。
    論文  参考訳(メタデータ)   (Wed, 7 Jul 2021 12:11:14 GMT)
    • 対話要約に関するサーベイ。通常のDocument summarizationとは似て非なるタスク。会議、会話、e-mailのやり取り、カスタマーサービス、医療と対象とするドメインも様々。非常に参考になる。