MentSum: Mental Health Summarization dataset

  • MentSum: A Resource for Exploring Summarization of Mental Health Online Posts [19.2]
    メンタルヘルスは、世界中の公衆衛生にとって重要な課題である。 オンラインプラットフォームの人気が高まるにつれて、多くの人々がプラットフォームを使ってメンタルヘルス状態を共有し、感情を表現し、コミュニティやカウンセラーからの助けを求めている。 Reachoutのようなプラットフォームの中には、ユーザーが助けを求めるために登録する専用のフォーラムもある。 Redditなど他のサービスでは、ユーザーが公開でも匿名でメンタルヘルスの苦痛を投稿するサブレディットを提供している。 ポストの長さは様々であるが、カウンセラーによる高速な処理のために短いが情報的な要約を提供することは有益である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 03:08:34 GMT)
    • オンラインのメンタルヘルス議論プラットフォームから作られたデータセット。
    • データの取得にはir@Georgetown – Resourcesからリクエストが必要なよう。

CoNT: Contrastive Neural Text Generation

  • CoNT: Contrastive Neural Text Generation [83.1]
    対照的なニューラルテキスト生成フレームワークであるCoNTが紹介される。 CoNTは、コントラスト学習が生成タスクで広く採用されるのを防ぐボトルネックに対処する。 我々は,機械翻訳,要約,コードコメント生成,データ-テキスト生成,コモンセンス生成を含む10のベンチマークを用いて,CoNTを5つの生成タスクで検証する。CoNTは、機械翻訳における1.50 BLEUと要約における1.77 ROUGE-1という、テキスト生成における最も競争力のあるコントラスト学習手法をそれぞれ上回っている。
    論文  参考訳(メタデータ)   (Sun, 29 May 2022 15:18:37 GMT)

TSTR: Too Short to Represent 細部を含んだ要約

  • TSTR: Too Short to Represent, Summarize with Details! Intro-Guided Extended Summary Generation [22.7]
    科学的文書のように、ソーステキストが比較的長い形式である領域では、そのような要約は、一般的で粗い概要を越えて、ソース文書から突出した情報を提供することはできない。 本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 02:45:31 GMT)
    • 論文等のAbstractを併用(論文全体からAbstractに含まれる文を探索)することで要約を改善する手法の提案。arxiv long、pubmed longで優れた性能とのこと。

SQuALITY: Summarization-format QUestion Answering with Long Input Texts, Yes!

  • SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.8]
    高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。 読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。 最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 23 May 2022 17:02:07 GMT)
    • 100のストーリー、500の質問、2000の要約からなるデータセット。ドキュメントの長さが平均5000wordsと長い。クラウドソーシングによる構築だが品質保持のための工夫がされているとのこと。
    • リポジトリはGitHub – nyu-mll/SQuALITY: Query-focused summarization data

FactPEGASUS: 事実性を考慮した抽象型要約

CiteSum: 論文のTLDR要約

  • CiteSum: Citation Text-guided Scientific Extreme Summarization and Low-resource Domain Adaptation [41.5]
    我々は、人間のアノテーションを使わずに新しいベンチマークCiteSumを作成し、これは前回の人間計算データセットSciTLDRの約30倍の大きさである。 科学的極端の要約では、CITESは微調整なしでSciTLDR上で完全に制御された手法よりも優れている。 ニュースの極端な要約では、CITESはベースモデルよりもXSumに大きな利益を得ている。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 12 May 2022 16:44:19 GMT)

EntSUM: Entity-Centricな要約データセット

  • EntSUM: A Data Set for Entity-Centric Summarization [27.8]
    制御可能な要約は、ユーザが指定した側面や好みを考慮に入れた要約を提供することを目的としている。 本稿では、制御可能な要約のための人間アノテーション付きデータセットEntSUMを紹介し、制御の側面として名前付きエンティティに焦点を当てる。
    論文  参考訳(メタデータ)   (Tue, 5 Apr 2022 13:45:54 GMT)

Cross-Lingual Summarizationのサーベイ

  • A Survey on Cross-Lingual Summarization [43.9]
    言語間の要約は、異なる言語における文書の1つの言語で要約を生成するタスクである。 グローバル化の背景から、この課題は計算言語学コミュニティから注目を集めている。 この分野におけるデータセット、アプローチ、課題に関する最初の体系的批判的レビューを提示する。
    論文  参考訳(メタデータ)   (Wed, 23 Mar 2022 16:24:21 GMT)
    • クロスリンガル要約のサーベイ。日本語にとっては極めて重要なタスクだと思う。
      • 英語のドキュメントに対して日本語の抄訳がある事例は多く、データセットを作りやすいのではないかと思ったりもする。。。

ポッドキャスト書き起こしの要約

  • Towards Abstractive Grounded Summarization of Podcast Transcripts [33.3]
    ポッドキャストの書き起こしの要約は、コンテンツ提供者と消費者の両方にとって実用的な利益である。 これは、コンシューマーがポッドキャストを聴くかどうかを素早く判断し、要約を書くためのコンテンツプロバイダの負荷を減らすのに役立つ。 しかし、ポッドキャストの要約は、入力に関する事実上の矛盾を含む重大な課題に直面している。
    論文  参考訳(メタデータ)   (Tue, 22 Mar 2022 02:44:39 GMT)

文書を並び替えてのMulti-Document News Summarization

  • Read Top News First: A Document Reordering Approach for Multi-Document News Summarization [27.3]
    本稿では,文書を連結・要約する前に,文書の相対的重要性に応じて並べ替える簡単な手法を提案する。 並べ替えにより、要約モデルで学習しやすくなる。
    論文  参考訳(メタデータ)   (Sat, 19 Mar 2022 06:01:11 GMT)
    • 複数の文書を要約するタスクにおいて、要約モデル適用前に適切な順番に並び替えることで性能が向上するとの報告。