対話要約 – arXiv最新論文の紹介

DIONYSUS: dynamic input optimization in pre-training for dialogue summarization

DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.7]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文参考訳（メタデータ） (Tue, 20 Dec 2022 06:21:21 GMT)
対話要約のための事前学習モデル。特にトレーニング例が少ない場合の性能が高く、PEGASUSを上回る。また、10例の学習で1000例でfine tuningしたT5を上回るとのこと。

ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization [41.7]
本稿では,対話文書を用いた言語間要約システム構築のためのベンチマークデータセットClidSumを提案する。それは、2つのサブセット(SAMSumとMediaSum)から67k以上の対話文書と、異なるターゲット言語における112k以上の注釈付き要約からなる。
論文参考訳（メタデータ） (Fri, 11 Feb 2022 13:32:14 GMT)
- クロスリンガルな対話要約データセットとモデルの提案。データセットの規模は大きく有用そう。モデルはmBART-50ベースで翻訳を併用する手法を上回る性能とのこと。
  - 8ページのSummarize-then-translate、Translate-then-summarizeを含む結果も非常に興味深い
- リポジトリはGitHub – krystalan/ClidSum: ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization、現状ではコード等はアップロードされておらず今月中にリリース予定とのこと。

TWEETSUMM — A Dialog Summarization Dataset for Customer Service [13.7]
6500人近い注釈付き要約を含む,最初の大規模,高品質,顧客ケアダイアログ要約データセットを紹介した。データは現実世界のカスタマーサポートダイアログに基づいており、抽出と抽象の両方の要約を含んでいる。また,ダイアログに特有な非教師付き抽出要約手法も導入した。
論文参考訳（メタデータ） (Tue, 23 Nov 2021 14:13:51 GMT)
- Customer Support on Twitter | Kaggleをベースに人間によって作成された抽出/抽象型両形式の要約データセット。データ量は1100対話、3056抽出型要約、3327抽象型要約。
- リポジトリはGitHub – guyfe/Tweetsumm: A dataset focused on summarization of dialogs, which represents the rich domain of Twitter customer care conversations、ライセンスはCommunity Data License Agreement – Sharing, Version 1.0 – CDLAとのこと。

A Survey on Dialogue Summarization: Recent Advances and New Frontiers [19.1]
本稿では、利用可能な研究データセットの概要と、入力対話の領域に従って既存の作業を要約し、統一されたメトリクスの下でリーダーボードを編成する。コミュニティに迅速なアクセスと,この課題の全体像を提供し,今後の研究を動機付けることを願っている。
論文参考訳（メタデータ） (Wed, 7 Jul 2021 12:11:14 GMT)
- 対話要約に関するサーベイ。通常のDocument summarizationとは似て非なるタスク。会議、会話、e-mailのやり取り、カスタマーサービス、医療と対象とするドメインも様々。非常に参考になる。