Benchmarking Large Language Models for News Summarization

  • Benchmarking Large Language Models for News Summarization [79.4]
    大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 18:46:19 GMT)
  • GPT-3(.5)時代の自動要約に関する論文。「LLMのゼロショット要約能力の鍵となるのは、モデルサイズではなく、命令チューニング」「既存の研究は低品質の参照によって制限されている」など重要な指摘がある
  • リポジトリはhttps://github.com/Tiiiger/benchmark_llm_summarizationとのことだが、現時点では404

On the State of German (Abstractive) Text Summarization

  • On the State of German (Abstractive) Text Summarization [3.2]
    ドイツの抽象的テキスト要約の景観を評価する。 業界において,抽象的なテキスト要約のための実用的なソリューションがいまだに欠落している理由を考察する。
    論文  参考訳(メタデータ)   (Tue, 17 Jan 2023 18:59:20 GMT)
  • ドイツ語における抽象型要約の状況。非英語という点では日本語も近い状況なのではないかと思う。
  • 一方で「Within just two years, we have also seen an unbelievable influx of available summarization datasets for German, importantly extending past the narrow domains into applicationspecific fields, such as law and medicine, and totaling more than 700.000 samples across publicly available resources.」はいいなーと思ったり。日本語データセットの拡充をしていかないといけないなーと思う今日この頃。

Active Learning for Abstractive Text Summarization 

  • Active Learning for Abstractive Text Summarization [50.8]
    本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。 ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
    論文  参考訳(メタデータ)   (Mon, 9 Jan 2023 10:33:14 GMT)
  • 抽象型要約へのActive Learning手法の提案と適用、ランダムサンプリングを上回る結果
  • 期待はありつつも難しい分野なのでランダムサンプリングを安定的に上回ったのはすごいなと思う。

Understanding Translationese in Cross-Lingual Summarization

  • Understanding Translationese in Cross-Lingual Summarization [45.0]
    言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。 大規模なCRSサンプルを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。 本研究では,翻訳文がCLSモデルの評価と性能にどのような影響を及ぼすかを検討する。
    論文  参考訳(メタデータ)   (Wed, 14 Dec 2022 13:41:49 GMT)
  • 翻訳を介する要約生成における翻訳処理の影響をまとめた論文
  • 影響があるのは直感的にも間違いなく、少なくともテストでは機械翻訳の採用を避ける、学習時には機械翻訳を一部使う場合は品質差があることを前提とする・semi-supervisedの採用を検討するなど良い示唆がある。

Robust Summarization Evaluation (RoSE)とAtomic Content Units (ACUs)

  • Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.2]
    既存の人間の評価プロトコルと要約のためのベンチマークは、アノテーション間の合意が低いか、統計的に重要な結論を導くのに必要な尺度が欠如している。 本稿では,微粒なセマンティック・ユニットに依存し,アノテータ間のアノテータ・アグリーメントを高い精度で実現する,改良された要約サリエンス・プロトコルであるAtomic Content Units(ACUs)を提案する。
    論文  参考訳(メタデータ)   (Thu, 15 Dec 2022 17:26:05 GMT)
  • 評価が難しい要約の評価について、新たなメトリクスとベンチマークの提案。どのくらい事実を含んでいるかという観点を入れているよう。
  • Yale-LILY/ROSE (github.com)

A Survey on Medical Document Summarization

  • A Survey on Medical Document Summarization [40.8]
    インターネットは医療業界に劇的な影響を与えており、文書をデジタルで保存、共有、管理することができる。 これにより、重要なデータを見つけ、共有しやすくなり、患者のケアを改善し、医学研究の機会を増やした。
    論文  参考訳(メタデータ)   (Sat, 3 Dec 2022 18:46:44 GMT)
  • 医療ドメインのマルチドキュメント要約に関するサーベイ
  • NLP全般の傾向かもしれないが、最近の盛り上がりを感じる内容

Long-Document Cross-Lingual Summarization

  • Long-Document Cross-Lingual Summarization [15.8]
    言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。 長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。 ペルセウスの文書の平均の長さは2,000以上のトークンである。
    論文  参考訳(メタデータ)   (Thu, 1 Dec 2022 15:24:16 GMT)
  • 長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
  • mBART+LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…

UniSummとSummZoo

MACSum: Controllable Summarization with Mixed Attributes

  • MACSum: Controllable Summarization with Mixed Attributes [56.7]
    MACSumは、混合属性を制御するための最初の人間アノテーションによる要約データセットである。 混合制御可能な要約の新しいタスクに対する2つの単純かつ効果的なパラメータ効率のアプローチを提案する。
    論文  参考訳(メタデータ)   (Wed, 9 Nov 2022 17:17:37 GMT)
  • 複数の属性で制御可能な要約モデル(とデータセット)の提案。制御可能な点は「Topic, Speaker, Length, Extractiveness, Specificity」、よく動けば非常に理想形に近いように思う。残念ながら「We explore the hard prompt and soft prefix models to show this is a challenging task as a large gap between machine learning models and human still exists.」とのことだが、研究の進展を期待。
  • リポジトリはpsunlpgroup/MACSum: This repository maintains dataset, metrics, and models for paper MACSUM: Controllable Summarization with Mixed Attributes. (github.com)

How Far are We from Robust Long Abstractive Summarization?

  • How Far are We from Robust Long Abstractive Summarization? [39.3]
    我々は、信頼できる要約を生成するために、長い文書抽象要約システム(モデルとメトリクス)を実装して評価する。 長期の文書評価指標について,人間の評価結果から,ROUGEは要約の関連性を評価する上で最善であることが明らかとなった。 我々は、より広い範囲の要約設定でメトリクスの開発に貢献できることを願って、注釈付き長いドキュメントデータセットをリリースします。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 03:19:50 GMT)
  • 一般的に難しい長文要約の評価に関する論文。色々指摘を受けているROUGEが悪くない結果を出していて少し驚き。fine tuningの重要性からもドメイン合わせないと辛い自然言語処理の特徴が見えている気もする。
  • リポジトリはhuankoh/How-Far-are-We-from-Robust-Long-Abstractive-Summarization (github.com)