Abstractive Summarization – ページ 4 – arXiv最新論文の紹介

FactPEGASUS: 事実性を考慮した抽象型要約

FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning for Abstractive Summarization [91.5]
本稿では,FactPEGASUSについて述べる。FactPEGASUSは,事前学習と微調整における現実性の問題に対処する抽象的な要約モデルである。分析の結果,FactPEGASUSはゼロショットやスプリショットの設定において,本来の事前学習目標よりも現実的であることが示唆された。
論文参考訳（メタデータ） (Mon, 16 May 2022 17:39:14 GMT)
- 事前学習目標として事実性を考慮したfactGSGを用い、XSum、WikiHow、Gigawordデータセットでfactualityを改善。
- リポジトリはGitHub – meetdavidwan/factpegasus: PyTorch code for “FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning for Abstractive Summarization” (NAACL 2022)

CiteSum: 論文のTLDR要約

CiteSum: Citation Text-guided Scientific Extreme Summarization and Low-resource Domain Adaptation [41.5]
我々は、人間のアノテーションを使わずに新しいベンチマークCiteSumを作成し、これは前回の人間計算データセットSciTLDRの約30倍の大きさである。科学的極端の要約では、CITESは微調整なしでSciTLDR上で完全に制御された手法よりも優れている。ニュースの極端な要約では、CITESはベースモデルよりもXSumに大きな利益を得ている。
論文参考訳（メタデータ）参考訳（全文） (Thu, 12 May 2022 16:44:19 GMT)
- 論文のTLDR要約のデータセットとモデルの提案。引用として記載された文が引用元論文の高品質な要約となっていることに着目して作成されたデータセットととのこと。このデータで事前学習したモデルはニュースなど他ドメインへの転送においても有効とのこと。
- リポジトリはGitHub – morningmoni/CiteSum: Dataset and Code for paper “CiteSum: Citation Text-guided Scientific Extreme Summarization and Low-resource Domain Adaptation”

EntSUM: Entity-Centricな要約データセット

EntSUM: A Data Set for Entity-Centric Summarization [27.8]
制御可能な要約は、ユーザが指定した側面や好みを考慮に入れた要約を提供することを目的としている。本稿では、制御可能な要約のための人間アノテーション付きデータセットEntSUMを紹介し、制御の側面として名前付きエンティティに焦点を当てる。
論文参考訳（メタデータ） (Tue, 5 Apr 2022 13:45:54 GMT)
- controllable summarizationのためのデータセット。複数の手法を用いた評価も行われている。
  - Lead3entが強力すぎる・・・
- データセットはhttps://zenodo.org/record/6359875、ライセンスはCreative Commons — Attribution 4.0 International — CC BY 4.0
- リポジトリはbloomberg/entsum · GitHub

Cross-Lingual Summarizationのサーベイ

A Survey on Cross-Lingual Summarization [43.9]
言語間の要約は、異なる言語における文書の1つの言語で要約を生成するタスクである。グローバル化の背景から、この課題は計算言語学コミュニティから注目を集めている。この分野におけるデータセット、アプローチ、課題に関する最初の体系的批判的レビューを提示する。
論文参考訳（メタデータ） (Wed, 23 Mar 2022 16:24:21 GMT)
- クロスリンガル要約のサーベイ。日本語にとっては極めて重要なタスクだと思う。
  - 英語のドキュメントに対して日本語の抄訳がある事例は多く、データセットを作りやすいのではないかと思ったりもする。。。

ポッドキャスト書き起こしの要約

Towards Abstractive Grounded Summarization of Podcast Transcripts [33.3]
ポッドキャストの書き起こしの要約は、コンテンツ提供者と消費者の両方にとって実用的な利益である。これは、コンシューマーがポッドキャストを聴くかどうかを素早く判断し、要約を書くためのコンテンツプロバイダの負荷を減らすのに役立つ。しかし、ポッドキャストの要約は、入力に関する事実上の矛盾を含む重大な課題に直面している。
論文参考訳（メタデータ） (Tue, 22 Mar 2022 02:44:39 GMT)
- ポッドキャストの要約に関する研究。ソースとターゲット（要約）の長さに乖離が大きく難しい問題で、ソースをどのようにセグメンテーションするかが重要とのこと。
  - 人間による評価は高いものの、機械評価はベースラインに負けている気がするが。。。（そもそも正解である要約品質が高くないという記載もあり、それはそれでよいとは思う）
- リポジトリはGitHub – tencent-ailab/GrndPodcastSum: (ACL 2022) The source code for the paper “Towards Abstractive Grounded Summarization of Podcast Transcripts”

文書を並び替えてのMulti-Document News Summarization

Read Top News First: A Document Reordering Approach for Multi-Document News Summarization [27.3]
本稿では,文書を連結・要約する前に,文書の相対的重要性に応じて並べ替える簡単な手法を提案する。並べ替えにより、要約モデルで学習しやすくなる。
論文参考訳（メタデータ） (Sat, 19 Mar 2022 06:01:11 GMT)
- 複数の文書を要約するタスクにおいて、要約モデル適用前に適切な順番に並び替えることで性能が向上するとの報告。
- リポジトリはhttps://github.com/zhaochaocs/MDS-DRとのこと。（現時点では404）

REINA(REtrieving from the traINing datA): 学習データからの検索がモデル性能を改善

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data [82.9]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (Wed, 16 Mar 2022 17:37:27 GMT)
- 学習データを対象に検索的手法を用いることで性能が向上するとの報告（3ページの図が分かりやすい）。要約タスクでREINA+BART-baseがBART-largeに匹敵とのこと。非常にパラメータ数の多いモデルであっても学習データを完全に覚えることはできないので、リマインド的に検索結果をつなげると性能が向上するのでは？というのが面白い。
  - とはいえ（特に機械翻訳は）学習したドメインにover fittingしそうな予感がする。それはそれで使いどころはありそうではあるが。。。
- リポジトリはGitHub – microsoft/REINA

PeerSum: ピアレビューを用いたMulti-document summarizationデータセット

PeerSum: A Peer Review Dataset for Abstractive Multi-document Summarization [37.5]
PeerSumは、科学出版物のピアレビューを用いた新しいMDSデータセットである。現在のMDSモデルは、PeerSumの高品質な要約を生成するのに苦労しています。
論文参考訳（メタデータ）参考訳（全文） (Thu, 3 Mar 2022 15:27:02 GMT)
- ICLRとNeurIPSのレビューデータをスクレイピング、メタレビュー部分を高品質な抽象型要約用データとして使えるとの指摘。レビュー→メタレビューという問題設定はそもそも実用上重要で面白い。
- リポジトリはGitHub – oaimli/PeerSum: PeerSum: A Peer Review Dataset for Abstractive Multi-document Summarization、現状ではアップされていない。

SCRIPT(StruCtural RelatIve Position): ソースコードの要約

Source Code Summarization with Structural Relative Position Guided Transformer [19.8]
ソースコードの要約は、プログラミング言語の簡潔で明確な自然言語記述を生成することを目的としている。近年の取り組みは、Transformerなどのニューラルネットワークにコードの構文構造を組み込むことに重点を置いている。 SCRIPTと呼ばれる構造相対位置案内変換器を提案する。
論文参考訳（メタデータ） (Mon, 14 Feb 2022 07:34:33 GMT)
- ソースコードの要約（ソースコードに対して短い自然言語の記述を生成）にTransformer型の構造を適用、優れた性能を達成。
  - （略称は無理やり感があるが）有用な研究、様々なアプローチがあり興味深い。
- リポジトリはGitHub – GoneZ5/SCRIPT

ExtraPhrase: 抽象型要約のためのデータ拡張（extractive + paraphrasing）

ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization [27.9]
ExtraPhraseは2つのステップで擬似トレーニングデータを構築する。 ROUGEスコアにおいて,ExtraPhraseは抽象的な要約タスクの性能を0.50ポイント以上向上することを示す。また,実際のトレーニングデータの量が著しく少ない場合,ExtraPhraseは極めて有効であることを示す。
論文参考訳（メタデータ） (Fri, 14 Jan 2022 06:14:34 GMT)
- 抽出型要約と言い換えを用いて抽象型要約のための合成データを作るというアプローチ。データ数が少ない場合に特に有効とのこと。
- 抽象型要約のデータは高価なので有効そうな場面はありそう。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31