CroCoSum

  • CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
    近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。 我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
    論文  参考訳(メタデータ)   (Tue, 7 Mar 2023 17:52:51 GMT)
  • クロスリンガルな要約データセット。英語→中国語。
  • 「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。(日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う)
  • 異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
  • リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404

Long Text and Multi-Table Summarization: Dataset and Method

  • Long Text and Multi-Table Summarization: Dataset and Method [20.9]
    FINDSumは3,794社から21,125件の年次レポートに基づいて構築されている。 それぞれの会社の運営成果と流動性を要約する2つのサブセットがある。 生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 00:46:55 GMT)
  • 年次レポートからの要約データセット。長文と表データの取り扱いが必要な構成になっている。年次報告書の特性からして結構当たるんじゃないかなと思わなくもない気がしていて(著者もやっているが)データ自体の分析を行ってみたいところ。
  • リポジトリはGitHub – StevenLau6/FINDSum: A Large-Scale Dataset for Long Text and Multi-Table Summarization

BigSurvey: 学術論文の大規模データセット

  • Generating a Structured Summary of Numerous Academic Papers: Dataset and Method [20.9]
    本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。 我々は,7千件以上の調査論文から対象要約を収集し,その43万件の参考論文の要約を入力文書として活用する。 数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 11:42:07 GMT)
  • 7,000サーベイと430,000の参照論文からなるデータセット。Multi Documentな要約の貴重なデータで長文であることからも難しい対象だと思う。ベースライン実装ではBigBIRD-PEGASUやLEDを上回っている。
  • リポジトリはGitHub – StevenLau6/BigSurvey: A large-scale dataset for numerous academic papers summarization、ライセンスはOpen Data Commons Attribution License (ODC-By) v1.0 — Open Data Commons: legal tools for open data

Benchmarking Large Language Models for News Summarization

  • Benchmarking Large Language Models for News Summarization [79.4]
    大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
    論文  参考訳(メタデータ)   (Tue, 31 Jan 2023 18:46:19 GMT)
  • GPT-3(.5)時代の自動要約に関する論文。「LLMのゼロショット要約能力の鍵となるのは、モデルサイズではなく、命令チューニング」「既存の研究は低品質の参照によって制限されている」など重要な指摘がある
  • リポジトリはhttps://github.com/Tiiiger/benchmark_llm_summarizationとのことだが、現時点では404

On the State of German (Abstractive) Text Summarization

  • On the State of German (Abstractive) Text Summarization [3.2]
    ドイツの抽象的テキスト要約の景観を評価する。 業界において,抽象的なテキスト要約のための実用的なソリューションがいまだに欠落している理由を考察する。
    論文  参考訳(メタデータ)   (Tue, 17 Jan 2023 18:59:20 GMT)
  • ドイツ語における抽象型要約の状況。非英語という点では日本語も近い状況なのではないかと思う。
  • 一方で「Within just two years, we have also seen an unbelievable influx of available summarization datasets for German, importantly extending past the narrow domains into applicationspecific fields, such as law and medicine, and totaling more than 700.000 samples across publicly available resources.」はいいなーと思ったり。日本語データセットの拡充をしていかないといけないなーと思う今日この頃。

Active Learning for Abstractive Text Summarization 

  • Active Learning for Abstractive Text Summarization [50.8]
    本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。 ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
    論文  参考訳(メタデータ)   (Mon, 9 Jan 2023 10:33:14 GMT)
  • 抽象型要約へのActive Learning手法の提案と適用、ランダムサンプリングを上回る結果
  • 期待はありつつも難しい分野なのでランダムサンプリングを安定的に上回ったのはすごいなと思う。

Understanding Translationese in Cross-Lingual Summarization

  • Understanding Translationese in Cross-Lingual Summarization [45.0]
    言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。 大規模なCRSサンプルを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。 本研究では,翻訳文がCLSモデルの評価と性能にどのような影響を及ぼすかを検討する。
    論文  参考訳(メタデータ)   (Wed, 14 Dec 2022 13:41:49 GMT)
  • 翻訳を介する要約生成における翻訳処理の影響をまとめた論文
  • 影響があるのは直感的にも間違いなく、少なくともテストでは機械翻訳の採用を避ける、学習時には機械翻訳を一部使う場合は品質差があることを前提とする・semi-supervisedの採用を検討するなど良い示唆がある。

Robust Summarization Evaluation (RoSE)とAtomic Content Units (ACUs)

  • Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.2]
    既存の人間の評価プロトコルと要約のためのベンチマークは、アノテーション間の合意が低いか、統計的に重要な結論を導くのに必要な尺度が欠如している。 本稿では,微粒なセマンティック・ユニットに依存し,アノテータ間のアノテータ・アグリーメントを高い精度で実現する,改良された要約サリエンス・プロトコルであるAtomic Content Units(ACUs)を提案する。
    論文  参考訳(メタデータ)   (Thu, 15 Dec 2022 17:26:05 GMT)
  • 評価が難しい要約の評価について、新たなメトリクスとベンチマークの提案。どのくらい事実を含んでいるかという観点を入れているよう。
  • Yale-LILY/ROSE (github.com)

A Survey on Medical Document Summarization

  • A Survey on Medical Document Summarization [40.8]
    インターネットは医療業界に劇的な影響を与えており、文書をデジタルで保存、共有、管理することができる。 これにより、重要なデータを見つけ、共有しやすくなり、患者のケアを改善し、医学研究の機会を増やした。
    論文  参考訳(メタデータ)   (Sat, 3 Dec 2022 18:46:44 GMT)
  • 医療ドメインのマルチドキュメント要約に関するサーベイ
  • NLP全般の傾向かもしれないが、最近の盛り上がりを感じる内容

Long-Document Cross-Lingual Summarization

  • Long-Document Cross-Lingual Summarization [15.8]
    言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。 長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。 ペルセウスの文書の平均の長さは2,000以上のトークンである。
    論文  参考訳(メタデータ)   (Thu, 1 Dec 2022 15:24:16 GMT)
  • 長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
  • mBART+LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…