SurveySum

  • SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section [7.4]
    本稿では,複数の学術論文を要約した新しいデータセットについて紹介する。 筆者らの貢献は,(1)ドメイン固有の要約ツールのギャップに対処する新しいデータセットであるサーベイサム,(2)科学論文を1つのセクションにまとめる2つの特定のパイプライン,(3)これらのパイプラインの評価を複数の指標を用いて比較することである。
    論文  参考訳(メタデータ)   (Thu, 29 Aug 2024 11:13:23 GMT)
  • 学術論文の要約データセット
  • リポジトリはunicamp-dl/SurveySum · Datasets at Hugging Face

要約といえば段階を踏んだ方が有効といわれているが、上記データセットでも同様の傾向があるのだろうか。

  • Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization [31.8]
    Prompt ChainingとStepwise Promptの2つの戦略は反復的なプロセスを実行するように設計されている。 本稿では,これら2つの手法をテキスト要約の文脈で検証し,比較することを目的とした。 実験結果から, プロンプト連鎖法によりより良好な結果が得られることが示された。
    論文  参考訳(メタデータ)   (Sat, 01 Jun 2024 17:28:38 GMT)

APIDocBooster

  • APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large Language Models for Augmenting API Documentation [21.9]
    APIDocBoosterは、抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点を融合させる。 APIDocBoosterは2つのステージで構成されている。 Sentence Section Classification (CSSC) と UPdate SUMmarization (UPSUM) である。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 05:15:50 GMT)
  • APIのドキュメントを作成するためにセクション認識、抽出型の要約、抽象型の要約を組み合わせる手法を提案。通常の方法でGPT-4を使った場合に比べて優れているとのこと。単純にLLMを使うよりも問題を適切に分割していって使うと効果的という結果に見受けられる。

MDDS(Multi-document Diversity Summarization) & DIVERSESUMM

  • Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [142.7]
    同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。 この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。 データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
    論文  参考訳(メタデータ)   (Sun, 17 Sep 2023 20:28:17 GMT)
  • Multi-document Summarizationを対象としたタスクとデータセットの構築。MDDS (Multi-document Diversity Summarization)という複数の情報源の利用を前提としたタスクを提案している。現実的ではあるがGPT-4であっても十分な性能とは言い難い難しいタスクとのこと。
  • 現時点でデータセットは公開されていない?
  • Summarization is (Almost) Dead [49.4]
    我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。 本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
    論文  参考訳(メタデータ)   (Mon, 18 Sep 2023 08:13:01 GMT)

という論文も出ていたが、要約関連のタスクバリエーションはいろいろ考えられそう。(要約というかレポーティングに近くなっていきそうな気もしつつ)

Benchmarking Large Language Models for News Summarization

  • Benchmarking Large Language Models for News Summarization [79.4]
    大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 18:46:19 GMT)
  • GPT-3(.5)時代の自動要約に関する論文。「LLMのゼロショット要約能力の鍵となるのは、モデルサイズではなく、命令チューニング」「既存の研究は低品質の参照によって制限されている」など重要な指摘がある
  • リポジトリはhttps://github.com/Tiiiger/benchmark_llm_summarizationとのことだが、現時点では404

Summary Workbench

  • Summary Workbench: Unifying Application and Evaluation of Text Summarization Models [24.4]
    テキスト要約モデルの開発と評価ツールであるサマリワークベンチを提案する。新しいモデルと評価基準は、Dockerベースのプラグインとして簡単に統合できる。 複数の測度を組み合わせた視覚分析は、モデルの強みと弱みに関する洞察を与える。
    論文  参考訳(メタデータ)   (Tue, 18 Oct 2022 04:47:25 GMT)
    • 様々な要約手法を試せるサイト。原文との対応や複数手法での比較など評価部分も凝っている。
    • プロジェクトサイトはSummary Workbench (webis.de)

WikiDes: Wikipediaベースの概要データセット

  • WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions from Paragraphs [66.9]
    ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。 データセットは、6987のトピックに関する80K以上の英語サンプルで構成されている。 本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
    論文  参考訳(メタデータ)   (Tue, 27 Sep 2022 01:28:02 GMT)
    • Wikipediaの最初の段落とWikidataの説明を関連付けしたデータセット。平均的なドキュメントサイズが小さめで段落をさらに短く説明するようなデータになっている。

GPT-3時代の要約

  • News Summarization and Evaluation in the Era of GPT-3 [73.5]
    我々は,0ショットGPT-3が,大規模な要約データセット上で訓練された微調整モデルと比較した。 我々は,人間はGPT-3要約を圧倒的に好んでいるだけでなく,現実性に乏しいようなデータセット固有の問題に悩まされていることも示している。
    論文  参考訳(メタデータ)   (Mon, 26 Sep 2022 01:04:52 GMT)
    • 機械要約において(機械的評価とは乖離して)人間はGPT-3による要約を好むという報告。通常の要約だけでなくCTRLSumが行うようなキーワードベースの手法でもGPT-3の方が好まれるとのこと。
      • 特化系のモデルが(Promptがあるとはいえ)汎用のモデルに勝てない時代…
    • リポジトリはtagoyal/factuality-datasets (github.com)

要約を対象としたContrastive Learningによるre-ranking

コールセンターの会話における要約手法の比較

  • Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.3]
    ラベル付きデータを必要とせず,比較的迅速かつ容易に本番環境に実装できる抽出型要約手法に注目した。そこで本稿では,これらの手法を用いて要約を生成し,客観的に評価することにより,実験的な比較を行った。 TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
    論文  参考訳(メタデータ)   (Tue, 6 Sep 2022 13:16:02 GMT)
    • 複数の抽出型要約手法の比較。LEAD-7が良いという衝撃の結果だが、基本となる統計値が無いので何とも言えない。。。
      • (この論文のfugumt.com的スコアが高いのはとても謎(summarization系だからかな))

抽出型要約も忠実ではない

  • Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization [91.9]
    本研究は,抽出要約に現れる5種類の広い不信問題を持つ類型論を定義する。 我々は15の多様な抽出システムによって生成された1500の英語の要約の中から、これらの問題をラベル付けするよう人間に求めている。 これらの問題を自動検出するために,要約のための既存の5つの信頼度評価指標は,人間の判断と相関が低いことがわかった。
    論文  参考訳(メタデータ)   (Thu, 8 Sep 2022 03:25:18 GMT)
    • 一般的に抽象型要約よりも抽出型要約の要約の方が意味的な忠実度が高いと思われているが、人間による大規模検証によるとそうでもないという結果。
    • 既存の各種評価指標との対応を見ると要約の自動評価簡単ではないなーという印象。
    • ZhangShiyue/extractive_is_not_faithful (github.com)