INSTRUSUM 

  • Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [136.2]
    命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。 本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
    論文  参考訳(メタデータ)   (Wed, 15 Nov 2023 18:25:26 GMT)
  • 制御されたテキスト要約のベンチマーク。GPT-4であれば可能なのかと思うところだが「We found that several LLMs have already shown promising performance in generating ins-controllable summaries.」であるものの「However, they lack robust holistic capabilities for this task since they still make a considerable amount of errors in their summaries and they can not reliability evaluate the different candidate summaries for the same data example」と難しいよう。(もとから簡単なタスクではないではないものの)LLMであれば対応可能と言い切れないのは興味深い結果。
  • リポジトリはGitHub – yale-nlp/InstruSum

Understanding Translationese in Cross-Lingual Summarization

  • Understanding Translationese in Cross-Lingual Summarization [45.0]
    言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。 大規模なCRSサンプルを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。 本研究では,翻訳文がCLSモデルの評価と性能にどのような影響を及ぼすかを検討する。
    論文  参考訳(メタデータ)   (Wed, 14 Dec 2022 13:41:49 GMT)
  • 翻訳を介する要約生成における翻訳処理の影響をまとめた論文
  • 影響があるのは直感的にも間違いなく、少なくともテストでは機械翻訳の採用を避ける、学習時には機械翻訳を一部使う場合は品質差があることを前提とする・semi-supervisedの採用を検討するなど良い示唆がある。

Long-Document Cross-Lingual Summarization

  • Long-Document Cross-Lingual Summarization [15.8]
    言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。 長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。 ペルセウスの文書の平均の長さは2,000以上のトークンである。
    論文  参考訳(メタデータ)   (Thu, 1 Dec 2022 15:24:16 GMT)
  • 長文をクロスリンガルで要約するためのデータセット作成と様々な手法の比較。中国語を対象とした成果だが、このような問題は日本語でも重要
  • mBART+LEDを用いたEnd-to-Endモデルが最も高性能との結果で驚いた。日本語版を作りたくなってくる…

How Far are We from Robust Long Abstractive Summarization?

  • How Far are We from Robust Long Abstractive Summarization? [39.3]
    我々は、信頼できる要約を生成するために、長い文書抽象要約システム(モデルとメトリクス)を実装して評価する。 長期の文書評価指標について,人間の評価結果から,ROUGEは要約の関連性を評価する上で最善であることが明らかとなった。 我々は、より広い範囲の要約設定でメトリクスの開発に貢献できることを願って、注釈付き長いドキュメントデータセットをリリースします。
    論文  参考訳(メタデータ)   (Sun, 30 Oct 2022 03:19:50 GMT)
  • 一般的に難しい長文要約の評価に関する論文。色々指摘を受けているROUGEが悪くない結果を出していて少し驚き。fine tuningの重要性からもドメイン合わせないと辛い自然言語処理の特徴が見えている気もする。
  • リポジトリはhuankoh/How-Far-are-We-from-Robust-Long-Abstractive-Summarization (github.com)

ECTSum

  • ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts [20.0]
    我々は、公開企業によって運営されている決算書(ECT)を文書として、新たなデータセットを提示する。 重要な事実を正確に捉えるために、単純なyet- Effective(ECT-BPS)アプローチも提案する。
    論文  参考訳(メタデータ)   (Wed, 26 Oct 2022 16:21:37 GMT)
    • Earnings Call(業績報告)のTranscriptと対応するロイターの記事を用いた要約データセットの提案。圧縮率が103.67と極めて高い。これらデータをうまく要約可能なECT-BPSというモデルも提案されている
      • FinBERTを用いたExtractiveモジュールとT5ベースのParaphasingモジュールの組み合わせ
    • リポジトリはrajdeep345/ECTSum: ECTSum Dataset and Codes (github.com)

Summary Workbench

  • Summary Workbench: Unifying Application and Evaluation of Text Summarization Models [24.4]
    テキスト要約モデルの開発と評価ツールであるサマリワークベンチを提案する。新しいモデルと評価基準は、Dockerベースのプラグインとして簡単に統合できる。 複数の測度を組み合わせた視覚分析は、モデルの強みと弱みに関する洞察を与える。
    論文  参考訳(メタデータ)   (Tue, 18 Oct 2022 04:47:25 GMT)
    • 様々な要約手法を試せるサイト。原文との対応や複数手法での比較など評価部分も凝っている。
    • プロジェクトサイトはSummary Workbench (webis.de)

TSTR: Too Short to Represent 細部を含んだ要約

  • TSTR: Too Short to Represent, Summarize with Details! Intro-Guided Extended Summary Generation [22.7]
    科学的文書のように、ソーステキストが比較的長い形式である領域では、そのような要約は、一般的で粗い概要を越えて、ソース文書から突出した情報を提供することはできない。 本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 02:45:31 GMT)
    • 論文等のAbstractを併用(論文全体からAbstractに含まれる文を探索)することで要約を改善する手法の提案。arxiv long、pubmed longで優れた性能とのこと。

GRAPHELSUMS(summaries with graphical elements): グラフィカルな要約データセット

  • Summarization with Graphical Elements [55.6]
    本稿では,グラフィカル要素による要約という新しい課題を提案する。 タスクの研究を支援するために,高品質なラベル付きデータセットを収集する。
    論文  参考訳(メタデータ)   (Fri, 15 Apr 2022 17:16:41 GMT)
    • ナレッジグラフのような形で要約する新しい要約タスクの提案とデータセット、ベースモデルの提示。提案されたデータセットでは関係として「L = {who, what, what happens, what happened, what will happen, where, when, why}」が与えられており、このような関係で結ばれた小さな要約で構成されていると確かに読みやすい。

TWEETSUMM : 対話要約データセット

SummerTime: 要約のためのツールキット

  • SummerTime: Text Summarization Toolkit for Non-experts [23.0]
    SummerTimeは、さまざまなモデル、データセット、評価メトリクスを含む、テキスト要約のための完全なツールキットである。 SummerTimeはNLP研究者向けに設計されたライブラリと統合されており、使いやすいAPIをユーザに提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 29 Aug 2021 03:24:48 GMT)
    • モデル、データセット、評価方法が入ったツールキット。Multi documentやQuery basedなものまでまとめて入るのは素晴らしいと思う。
      • モデル:
        • Single-doc: BartModel, LexRankModel, LongformerModel, PegasusModel, TextRankModel
        • Multi-doc: MultiDocJointModel, MultiDocSeparateModel
        • Dialogue-based: HMNetModel
        • Query-based:BM25SummModel, TFIDFSummModel
      • データセット: ArXiv, CNN/DM(3.0.0), MlsumDataset, Multi-News, SAMSum, Pubmedqa, QMSum, ScisummNet, SummScreen, XSum
      • 評価方法: BERT Score, BLEU, ROUGE