Chart-to-Text:グラフを自然言語で表現するためのデータセット

  • Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.6]
    2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。 データセット構築プロセスを説明し、データセットを解析する。
    論文  参考訳(メタデータ)   (Sat, 12 Mar 2022 17:01:38 GMT)
    • グラフの説明をするモデル構築のためのデータセットとベースラインの提案。比較を含むためテキスト生成の中でも難しいタスクのように感じる。
    • リポジトリはGitHub – vis-nlp/Chart-to-textとのこと。(現状ではアップロードされていない)

自然言語生成における忠実性の問題に関するサーベイ

  • Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods [48.5]
    自然言語生成(NLG)は,事前学習型言語モデルなどの深層学習技術の発展により,近年大きく進歩している。 しかし、生成したテキストが通常不信または非実情報を含むという忠実性問題は、最大の課題となっている。
    論文  参考訳(メタデータ)   (Thu, 10 Mar 2022 08:28:32 GMT)
    • NLGを行う上で「fluency (流暢か)」「informativeness (有用なものか)」「controllability (制御できるか)」「faithfulness (入力に忠実か)」などが課題となる。テンプレート方式ではfaithfulnessを満たしやすいが近年の言語モデルを用いたNLGではこれを満たすことは簡単ではない。このサーベイではfaithfulnessに注目して評価や最適化手法をまとめている。NLG一般のサーベイとしても有用な印象。

テキスト生成のための Contrastive Framework

  • A Contrastive Framework for Neural Text Generation [46.8]
    テキスト生成は多くの自然言語処理アプリケーションにおいて非常に重要である。 しかし、ニューラルネットワークモデルの最大化に基づく復号法(ビーム探索など)は、しばしば不自然であり、望ましくない繰り返しを含んでいる。モデル表現空間を校正するための対照的な学習目標であるSimCTGと,生成したテキストのコヒーレンスを維持しつつ多様性を高めるためのデコード手法であるコントラスト検索を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Sun, 13 Feb 2022 21:46:14 GMT)
    • (FuguMTやarXiv翻訳サイトでもたまに見られる)単語の繰り返しのようなテキスト生成を防ぐための手法の提案。
      • 「トークン表現の異方性分布がモデルデジェネレーションの根本的な原因」とのことだが、分散表現の値(重み)が特定部分に偏ると理解して良いのだろうか・・・?
    • リポジトリはGitHub – yxuansu/SimCTG: A Contrastive Framework for Neural Text Generation、日本語でも動作しているのが凄い。

Retrieval-augmented text generationのサーベイ

  • A Survey on Retrieval-Augmented Text Generation [53.0]
    Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。 まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 2 Feb 2022 16:18:41 GMT)
    • 検索を併用するテキスト生成に関するサーベイ
    • サーベイとしては短め(がゆえに)簡潔にまとまっていて参考になる

事前学習モデルを活用した文書生成のサーベイ

  • A Survey of Pretrained Language Models Based Text Generation [97.6]
    テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。 ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。 PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
    論文  参考訳(メタデータ)   (Fri, 14 Jan 2022 01:44:58 GMT)

知識ベースQA、テキスト生成のサーベイ

  • A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions [41.7]
    知識ベース質問応答(KBQA)は、知識ベース(KB)に関する質問に答えることを目的としている。 複雑なKBQAの典型的な課題と解決策を精巧に要約する。
    論文  参考訳(メタデータ)   (Tue, 25 May 2021 03:45:30 GMT)
    • 知識ベースを用いたQuestion Answeringタスクのおける意味解析、情報検索などのアプローチを中心としたサーベイ。カテゴリ分けなど参考になる。
  • Pretrained Language Models for Text Generation: A Survey [46.0]
    本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。 我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
    論文  参考訳(メタデータ)   (Tue, 25 May 2021 01:19:47 GMT)
    • 事前学習モデルをテキスト生成に使うという研究のサーベイ。この分野を概観するのによい資料。実用にはControllable Generationは非常に重要だと思うのだが道半ばという印象。