ECTSum

  • ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts [20.0]
    我々は、公開企業によって運営されている決算書(ECT)を文書として、新たなデータセットを提示する。 重要な事実を正確に捉えるために、単純なyet- Effective(ECT-BPS)アプローチも提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Oct 2022 16:21:37 GMT)
    • Earnings Call(業績報告)のTranscriptと対応するロイターの記事を用いた要約データセットの提案。圧縮率が103.67と極めて高い。これらデータをうまく要約可能なECT-BPSというモデルも提案されている
      • FinBERTを用いたExtractiveモジュールとT5ベースのParaphasingモジュールの組み合わせ
    • リポジトリはrajdeep345/ECTSum: ECTSum Dataset and Codes (github.com)

Summary Workbench

  • Summary Workbench: Unifying Application and Evaluation of Text Summarization Models [24.4]
    テキスト要約モデルの開発と評価ツールであるサマリワークベンチを提案する。新しいモデルと評価基準は、Dockerベースのプラグインとして簡単に統合できる。 複数の測度を組み合わせた視覚分析は、モデルの強みと弱みに関する洞察を与える。
    論文  参考訳(メタデータ)   (Tue, 18 Oct 2022 04:47:25 GMT)
    • 様々な要約手法を試せるサイト。原文との対応や複数手法での比較など評価部分も凝っている。
    • プロジェクトサイトはSummary Workbench (webis.de)

要約を対象としたContrastive Learningによるre-ranking

Summarization Programs: 解釈可能な要約

  • Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees [89.6]
    現在の抽象的要約モデルは明確な解釈可能性の欠如に悩まされるか、あるいは不完全理性を与える。 本稿では,バイナリツリーの(順序付き)リストからなる解釈可能なモジュラーフレームワークであるSummarization Program (SP)を提案する。 要約プログラムは、要約文毎に1つのルートノードを含み、各要約文と文書文を個別のツリーで接続する。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 16:50:22 GMT)

Z-Code++: 要約のための事前学習モデル

  • Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization [108.1]
    Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。 このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。 パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bを上回る。
    論文  参考訳(メタデータ)   (Sun, 21 Aug 2022 01:00:54 GMT)
    • 抽象型要約に最適化された言語モデルの提案。事前学習時のデータの使い方の工夫、(self-attentionより効率的とされる)disentangled attentionの利用、長文のための fusion-in-encoderによってパラメータ効率の高いモデルを構築。

長文要約のサーベイ

  • An Empirical Survey on Long Document Summarization: Datasets, Models and Metrics [33.7]
    本稿では,長い文書要約研究の概要について概説する。 我々は、現在の研究の進展に対する視点を広げるために、実証分析を行う。
    論文  参考訳(メタデータ)   (Sun, 3 Jul 2022 02:57:22 GMT)

MentSum: Mental Health Summarization dataset

  • MentSum: A Resource for Exploring Summarization of Mental Health Online Posts [19.2]
    メンタルヘルスは、世界中の公衆衛生にとって重要な課題である。 オンラインプラットフォームの人気が高まるにつれて、多くの人々がプラットフォームを使ってメンタルヘルス状態を共有し、感情を表現し、コミュニティやカウンセラーからの助けを求めている。 Reachoutのようなプラットフォームの中には、ユーザーが助けを求めるために登録する専用のフォーラムもある。 Redditなど他のサービスでは、ユーザーが公開でも匿名でメンタルヘルスの苦痛を投稿するサブレディットを提供している。 ポストの長さは様々であるが、カウンセラーによる高速な処理のために短いが情報的な要約を提供することは有益である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 03:08:34 GMT)
    • オンラインのメンタルヘルス議論プラットフォームから作られたデータセット。
    • データの取得にはir@Georgetown – Resourcesからリクエストが必要なよう。

CoNT: Contrastive Neural Text Generation

  • CoNT: Contrastive Neural Text Generation [83.1]
    対照的なニューラルテキスト生成フレームワークであるCoNTが紹介される。 CoNTは、コントラスト学習が生成タスクで広く採用されるのを防ぐボトルネックに対処する。 我々は,機械翻訳,要約,コードコメント生成,データ-テキスト生成,コモンセンス生成を含む10のベンチマークを用いて,CoNTを5つの生成タスクで検証する。CoNTは、機械翻訳における1.50 BLEUと要約における1.77 ROUGE-1という、テキスト生成における最も競争力のあるコントラスト学習手法をそれぞれ上回っている。
    論文  参考訳(メタデータ)   (Sun, 29 May 2022 15:18:37 GMT)

TSTR: Too Short to Represent 細部を含んだ要約

  • TSTR: Too Short to Represent, Summarize with Details! Intro-Guided Extended Summary Generation [22.7]
    科学的文書のように、ソーステキストが比較的長い形式である領域では、そのような要約は、一般的で粗い概要を越えて、ソース文書から突出した情報を提供することはできない。 本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 02:45:31 GMT)
    • 論文等のAbstractを併用(論文全体からAbstractに含まれる文を探索)することで要約を改善する手法の提案。arxiv long、pubmed longで優れた性能とのこと。

SQuALITY: Summarization-format QUestion Answering with Long Input Texts, Yes!

  • SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.8]
    高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。 読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。 最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 23 May 2022 17:02:07 GMT)
    • 100のストーリー、500の質問、2000の要約からなるデータセット。ドキュメントの長さが平均5000wordsと長い。クラウドソーシングによる構築だが品質保持のための工夫がされているとのこと。
    • リポジトリはGitHub – nyu-mll/SQuALITY: Query-focused summarization data