Abstractive Summarization – ページ 3 – arXiv最新論文の紹介

ECTSum

ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts [20.0]
我々は、公開企業によって運営されている決算書(ECT)を文書として、新たなデータセットを提示する。重要な事実を正確に捉えるために、単純なyet- Effective(ECT-BPS)アプローチも提案する。
論文参考訳（メタデータ） (Wed, 26 Oct 2022 16:21:37 GMT)
- Earnings Call（業績報告）のTranscriptと対応するロイターの記事を用いた要約データセットの提案。圧縮率が103.67と極めて高い。これらデータをうまく要約可能なECT-BPSというモデルも提案されている
  - FinBERTを用いたExtractiveモジュールとT5ベースのParaphasingモジュールの組み合わせ
- リポジトリはrajdeep345/ECTSum: ECTSum Dataset and Codes (github.com)

Summary Workbench

Summary Workbench: Unifying Application and Evaluation of Text Summarization Models [24.4]
テキスト要約モデルの開発と評価ツールであるサマリワークベンチを提案する。新しいモデルと評価基準は、Dockerベースのプラグインとして簡単に統合できる。複数の測度を組み合わせた視覚分析は、モデルの強みと弱みに関する洞察を与える。
論文参考訳（メタデータ） (Tue, 18 Oct 2022 04:47:25 GMT)
- 様々な要約手法を試せるサイト。原文との対応や複数手法での比較など評価部分も凝っている。
- プロジェクトサイトはSummary Workbench (webis.de)

要約を対象としたContrastive Learningによるre-ranking

COLO: A Contrastive Learning based Re-ranking Framework for One-Stage Summarization [84.7]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。 COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 06:11:21 GMT)
- 通常2段階で行われる要約＆re-rankingを1段階で実施するフレームワークの提案。CNN/DailyMailで評価し優れた性能を確認。
- リポジトリはChenxinAn-fdu/CoLo: Code for COLING 2022 paper: “COLO: A Contrastive Learning based Re-ranking Framework for One-Stage Summarization” (github.com)

Summarization Programs: 解釈可能な要約

Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees [89.6]
現在の抽象的要約モデルは明確な解釈可能性の欠如に悩まされるか、あるいは不完全理性を与える。本稿では,バイナリツリーの(順序付き)リストからなる解釈可能なモジュラーフレームワークであるSummarization Program (SP)を提案する。要約プログラムは、要約文毎に1つのルートノードを含み、各要約文と文書文を個別のツリーで接続する。
論文参考訳（メタデータ） (Wed, 21 Sep 2022 16:50:22 GMT)
- 解釈可能な抽象型要約手法の提案。文を短くする過程（操作）を木構造で追うことが可能。現時点では十分な性能を出せていないように見えるが改善可能性が示されている。
- リポジトリはswarnaHub/SummarizationPrograms: PyTorch code of Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees (github.com)

Z-Code++: 要約のための事前学習モデル

Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization [108.1]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bを上回る。
論文参考訳（メタデータ） (Sun, 21 Aug 2022 01:00:54 GMT)
- 抽象型要約に最適化された言語モデルの提案。事前学習時のデータの使い方の工夫、（self-attentionより効率的とされる）disentangled attentionの利用、長文のための fusion-in-encoderによってパラメータ効率の高いモデルを構築。

長文要約のサーベイ

An Empirical Survey on Long Document Summarization: Datasets, Models and Metrics [33.7]
本稿では,長い文書要約研究の概要について概説する。我々は、現在の研究の進展に対する視点を広げるために、実証分析を行う。
論文参考訳（メタデータ） (Sun, 3 Jul 2022 02:57:22 GMT)
- 長文要約に関するサーベイ論文。様々なアプローチがまとめられており、評価結果もあるのが参考になる。
- リポジトリはGitHub – huankoh/long-doc-summarization: Long Document Summarization Papers、非常にありがたい整理。

MentSum: Mental Health Summarization dataset

MentSum: A Resource for Exploring Summarization of Mental Health Online Posts [19.2]
メンタルヘルスは、世界中の公衆衛生にとって重要な課題である。オンラインプラットフォームの人気が高まるにつれて、多くの人々がプラットフォームを使ってメンタルヘルス状態を共有し、感情を表現し、コミュニティやカウンセラーからの助けを求めている。 Reachoutのようなプラットフォームの中には、ユーザーが助けを求めるために登録する専用のフォーラムもある。 Redditなど他のサービスでは、ユーザーが公開でも匿名でメンタルヘルスの苦痛を投稿するサブレディットを提供している。ポストの長さは様々であるが、カウンセラーによる高速な処理のために短いが情報的な要約を提供することは有益である。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Jun 2022 03:08:34 GMT)
- オンラインのメンタルヘルス議論プラットフォームから作られたデータセット。
- データの取得にはir@Georgetown – Resourcesからリクエストが必要なよう。

CoNT: Contrastive Neural Text Generation

CoNT: Contrastive Neural Text Generation [83.1]
対照的なニューラルテキスト生成フレームワークであるCoNTが紹介される。 CoNTは、コントラスト学習が生成タスクで広く採用されるのを防ぐボトルネックに対処する。我々は,機械翻訳,要約,コードコメント生成,データ-テキスト生成,コモンセンス生成を含む10のベンチマークを用いて,CoNTを5つの生成タスクで検証する。CoNTは、機械翻訳における1.50 BLEUと要約における1.77 ROUGE-1という、テキスト生成における最も競争力のあるコントラスト学習手法をそれぞれ上回っている。
論文参考訳（メタデータ） (Sun, 29 May 2022 15:18:37 GMT)
- テキスト生成系タスクのためビームサーチの結果を利用したContrastive Lerningの提案。翻訳や要約など多種のタスクで性能を改善（T5やPEGASUSをさらに改善）。ただし学習は2-4倍遅くなるとのこと。
- リポジトリはGitHub – Shark-NLP/CoNT: Code and datasets for our paper: “CoNT: Contrastive Neural Text Generation”

TSTR: Too Short to Represent 細部を含んだ要約

TSTR: Too Short to Represent, Summarize with Details! Intro-Guided Extended Summary Generation [22.7]
科学的文書のように、ソーステキストが比較的長い形式である領域では、そのような要約は、一般的で粗い概要を越えて、ソース文書から突出した情報を提供することはできない。本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Jun 2022 02:45:31 GMT)
- 論文等のAbstractを併用（論文全体からAbstractに含まれる文を探索）することで要約を改善する手法の提案。arxiv long、pubmed longで優れた性能とのこと。

SQuALITY: Summarization-format QUestion Answering with Long Input Texts, Yes!

SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.8]
高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
論文参考訳（メタデータ）参考訳（全文） (Mon, 23 May 2022 17:02:07 GMT)
- 100のストーリー、500の質問、2000の要約からなるデータセット。ドキュメントの長さが平均5000wordsと長い。クラウドソーシングによる構築だが品質保持のための工夫がされているとのこと。
- リポジトリはGitHub – nyu-mll/SQuALITY: Query-focused summarization data

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31