時間に鋭敏なQAデータセット

  • A Dataset for Answering Time-Sensitive Questions [89.0]
    時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。 時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。 既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
    論文  参考訳(メタデータ)   (Fri, 13 Aug 2021 16:42:25 GMT)
    • 時間に鋭敏なQAデータセットとのことで、「長い文書における時間情報の明示的および暗黙的な言及の両方を理解する必要がある」「比較、加算、減算のような時間的推論を行う必要がある」データセットとして設計されているとのこと。現状SOTAのモデル(BigBirdやFiD)でも全く人間に及ばない性能しか出せないとのことで難しいデータセットになっている。
    • リポジトリはhttps://github.com/wenhuchen/Time-Sensitive-QAとのことだが、現時点では404

Question Answeringデータセットの調査

  • QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension [41.6]
    我々は、現在のリソースの様々なフォーマットとドメインの概要を述べ、将来の作業における現在の隙間を強調します。 また、英語に対する過剰な焦点付けの影響についても論じ、他の言語や多言語リソースに対する現在のモノリンガルリソースについて調査する。
    論文  参考訳(メタデータ)   (Tue, 27 Jul 2021 10:09:13 GMT)
    • 引用数295という大規模なQAデータセットの調査結果。問題の構成、ドメイン、言語など様々な側面でデータセットを分類しており非常に参考になる。モノリンガルなリソースだと、日本語データセットは4番目(1位は英語、2位は中国語、3位はロシア語)に多いとのこと。

会話型の質問回答タスクのサーベイ

  • Conversational Question Answering: A Survey [18.4]
    本調査は,会話質問回答(CQA)の最先端研究動向を包括的に概観する試みである。 この結果から,会話型AIの分野をさまざまな観点から活性化する1ターンから多ターンQAへの傾向が示唆された。
    論文  参考訳(メタデータ)   (Wed, 2 Jun 2021 01:06:34 GMT)
    • 会話関連の質問回答タスクのサーベイ。46ページと広範にわたるものであり、カテゴライズなども参考になる。

知識ベースQA、テキスト生成のサーベイ

  • A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions [41.7]
    知識ベース質問応答(KBQA)は、知識ベース(KB)に関する質問に答えることを目的としている。 複雑なKBQAの典型的な課題と解決策を精巧に要約する。
    論文  参考訳(メタデータ)   (Tue, 25 May 2021 03:45:30 GMT)
    • 知識ベースを用いたQuestion Answeringタスクのおける意味解析、情報検索などのアプローチを中心としたサーベイ。カテゴリ分けなど参考になる。
  • Pretrained Language Models for Text Generation: A Survey [46.0]
    本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。 我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
    論文  参考訳(メタデータ)   (Tue, 25 May 2021 01:19:47 GMT)
    • 事前学習モデルをテキスト生成に使うという研究のサーベイ。この分野を概観するのによい資料。実用にはControllable Generationは非常に重要だと思うのだが道半ばという印象。

会話ドメインのQAデータセット

  • QAConv: Question Answering on Informative Conversations [85.3]
    本稿では,会話を知識源として利用するQAデータセットであるQAConvを紹介する。 ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。 合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
    論文  参考訳(メタデータ)   (Fri, 14 May 2021 15:53:05 GMT)
    • 会話をベースとしたQuestion Answering、1万会話、3万QAと結構な数がある。githubのリーダーボードが盛り上がるか&その手法を要チェック。
    • https://github.com/salesforce/QAConv