UniSummとSummZoo

MACSum: Controllable Summarization with Mixed Attributes

  • MACSum: Controllable Summarization with Mixed Attributes [56.7]
    MACSumは、混合属性を制御するための最初の人間アノテーションによる要約データセットである。 混合制御可能な要約の新しいタスクに対する2つの単純かつ効果的なパラメータ効率のアプローチを提案する。
    論文  参考訳(メタデータ)   (Wed, 9 Nov 2022 17:17:37 GMT)
  • 複数の属性で制御可能な要約モデル(とデータセット)の提案。制御可能な点は「Topic, Speaker, Length, Extractiveness, Specificity」、よく動けば非常に理想形に近いように思う。残念ながら「We explore the hard prompt and soft prefix models to show this is a challenging task as a large gap between machine learning models and human still exists.」とのことだが、研究の進展を期待。
  • リポジトリはpsunlpgroup/MACSum: This repository maintains dataset, metrics, and models for paper MACSUM: Controllable Summarization with Mixed Attributes. (github.com)

How Far are We from Robust Long Abstractive Summarization?

  • How Far are We from Robust Long Abstractive Summarization? [39.3]
    我々は、信頼できる要約を生成するために、長い文書抽象要約システム(モデルとメトリクス)を実装して評価する。 長期の文書評価指標について,人間の評価結果から,ROUGEは要約の関連性を評価する上で最善であることが明らかとなった。 我々は、より広い範囲の要約設定でメトリクスの開発に貢献できることを願って、注釈付き長いドキュメントデータセットをリリースします。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 03:19:50 GMT)
  • 一般的に難しい長文要約の評価に関する論文。色々指摘を受けているROUGEが悪くない結果を出していて少し驚き。fine tuningの重要性からもドメイン合わせないと辛い自然言語処理の特徴が見えている気もする。
  • リポジトリはhuankoh/How-Far-are-We-from-Robust-Long-Abstractive-Summarization (github.com)

ECTSum

  • ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts [20.0]
    我々は、公開企業によって運営されている決算書(ECT)を文書として、新たなデータセットを提示する。 重要な事実を正確に捉えるために、単純なyet- Effective(ECT-BPS)アプローチも提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Oct 2022 16:21:37 GMT)
    • Earnings Call(業績報告)のTranscriptと対応するロイターの記事を用いた要約データセットの提案。圧縮率が103.67と極めて高い。これらデータをうまく要約可能なECT-BPSというモデルも提案されている
      • FinBERTを用いたExtractiveモジュールとT5ベースのParaphasingモジュールの組み合わせ
    • リポジトリはrajdeep345/ECTSum: ECTSum Dataset and Codes (github.com)

Summary Workbench

  • Summary Workbench: Unifying Application and Evaluation of Text Summarization Models [24.4]
    テキスト要約モデルの開発と評価ツールであるサマリワークベンチを提案する。新しいモデルと評価基準は、Dockerベースのプラグインとして簡単に統合できる。 複数の測度を組み合わせた視覚分析は、モデルの強みと弱みに関する洞察を与える。
    論文  参考訳(メタデータ)   (Tue, 18 Oct 2022 04:47:25 GMT)
    • 様々な要約手法を試せるサイト。原文との対応や複数手法での比較など評価部分も凝っている。
    • プロジェクトサイトはSummary Workbench (webis.de)

要約を対象としたContrastive Learningによるre-ranking

Summarization Programs: 解釈可能な要約

  • Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees [89.6]
    現在の抽象的要約モデルは明確な解釈可能性の欠如に悩まされるか、あるいは不完全理性を与える。 本稿では,バイナリツリーの(順序付き)リストからなる解釈可能なモジュラーフレームワークであるSummarization Program (SP)を提案する。 要約プログラムは、要約文毎に1つのルートノードを含み、各要約文と文書文を個別のツリーで接続する。
    論文  参考訳(メタデータ)   (Wed, 21 Sep 2022 16:50:22 GMT)

Z-Code++: 要約のための事前学習モデル

  • Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization [108.1]
    Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。 このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。 パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bを上回る。
    論文  参考訳(メタデータ)   (Sun, 21 Aug 2022 01:00:54 GMT)
    • 抽象型要約に最適化された言語モデルの提案。事前学習時のデータの使い方の工夫、(self-attentionより効率的とされる)disentangled attentionの利用、長文のための fusion-in-encoderによってパラメータ効率の高いモデルを構築。

長文要約のサーベイ

  • An Empirical Survey on Long Document Summarization: Datasets, Models and Metrics [33.7]
    本稿では,長い文書要約研究の概要について概説する。 我々は、現在の研究の進展に対する視点を広げるために、実証分析を行う。
    論文  参考訳(メタデータ)   (Sun, 3 Jul 2022 02:57:22 GMT)

MentSum: Mental Health Summarization dataset

  • MentSum: A Resource for Exploring Summarization of Mental Health Online Posts [19.2]
    メンタルヘルスは、世界中の公衆衛生にとって重要な課題である。 オンラインプラットフォームの人気が高まるにつれて、多くの人々がプラットフォームを使ってメンタルヘルス状態を共有し、感情を表現し、コミュニティやカウンセラーからの助けを求めている。 Reachoutのようなプラットフォームの中には、ユーザーが助けを求めるために登録する専用のフォーラムもある。 Redditなど他のサービスでは、ユーザーが公開でも匿名でメンタルヘルスの苦痛を投稿するサブレディットを提供している。 ポストの長さは様々であるが、カウンセラーによる高速な処理のために短いが情報的な要約を提供することは有益である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 03:08:34 GMT)
    • オンラインのメンタルヘルス議論プラットフォームから作られたデータセット。
    • データの取得にはir@Georgetown – Resourcesからリクエストが必要なよう。