データを集めるべきか、モデルを工夫すべきか

  • A Few More Examples May Be Worth Billions of Parameters [26.1]
    モデルパラメータ数の増加とラベル付き例数の増加のダイナミクスについて検討する。 オープンな質問応答タスクでは、トレーニングセットを拡大してもパフォーマンスは向上しない。 対照的に、分類、抽出的質問応答、および複数の選択タスクは、追加の例から非常に恩恵を受けており、数百のサンプルを集めることは、しばしば数十億のパラメータ分の価値がある。
    論文  参考訳(メタデータ)   (Fri, 8 Oct 2021 20:51:52 GMT)
    • 内容は論文中の図が分かりやすく、データを増やすよりパラメータを増加させた方が精度向上に効果がある場合(例:オープンなQA)を報告している。
    • データ収集を頑張るべきかモデルサイズを大きくするなどモデル側を頑張るべきかは良く議論になる。普通は前者の方が効果的とされることが多いが、実証的に確認するべきであることを再認識する報告。論文中に指摘がある通りオープンQAの形式にするな(難しいタスクに落とし込むな)という点も重要。

Cross-Lingual GenQA(Generative Question Answering ): クロスリンガルなQA

  • Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering Approach for Open-Domain Question Answering [77.0]
    オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。 我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
    論文  参考訳(メタデータ)   (Thu, 14 Oct 2021 04:36:29 GMT)
    • 複数の言語で一般的な質問に回答可能なモデルの提案。単言語のモデル:MONOLINGUAL GENQA、多言語のモデル:MULTILINGUAL GENQA、複数言語の回答を合成するCROSSLINGUAL GENQAを比較、単言語モデルよりも優れている場合があることを示している。
      • 言語間差異が大きく興味深い実験・結果だが(論文中にも指摘がある通り)途中に機械翻訳を挟んだ影響が気になる。

ConditionalQA: 条件に応じた回答を含むQAデータセット

  • ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers [93.6]
    条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。 このデータセットを ConditionalQA と呼びます。 本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
    論文  参考訳(メタデータ)   (Wed, 13 Oct 2021 17:16:46 GMT)
    • 質問に対して「〇〇の場合はyes」「△△の場合はno」のように、回答に条件があるタイプのQAデータセット。機械的に解くことは簡単ではなく人間とのスコア差が大きいとのこと。この手の質問回答は現実社会で普通に見られるため重要なタスクであるとの印象。
    • リポジトリはhttps://github.com/haitian-sun/ConditionalQA、リーダーボードも存在。

QAにおけるGNNの役割はカウンターとして動作しているのみ?

  • GNN is a Counter? Revisiting GNN for Question Answering [105.8]
    State-of-the-art Question Answering (QA)システムは通常、LMに符号化された知識にアクセスするために、訓練済み言語モデル(LM)を使用する。 知識グラフ(KG)の推論を行うグラフニューラルネットワーク(GNN)に基づく精巧に設計されたモジュール 我々の研究は、既存の知識を意識したGNNモジュールがカウントなどの単純な理由のみを実行することを明らかにしている。
    論文  参考訳(メタデータ)   (Thu, 7 Oct 2021 05:44:52 GMT)
    • QAタスクの高精度化ではGraph Neural Networkが使われることが多い。Graph Soft Counter (GSC)というEdge encoderとスコアを合算レイヤーのみを持つシンプルな構造で既存の複雑なGNNより良い性能を達成できたとのこと。モデルサイズはわずか3Kと驚きの結果。

NOAHQA(Numerical reasOning with interpretAble grapH QA dataset): 数値推論を必要とするバイリンガルQAデータセット

  • NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering Dataset [26.8]
    数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。 我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5のEMスコアしか達成できないことを示す。 また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 22 Sep 2021 09:17:09 GMT)
    • 算数の文章題のような数値推論を必要とするQAを含むバイリンガル(英語、中国語)のデータセットを提案。データ数は約20K。先端的な構造を使っても人間とのパフォーマンス差が大きいと報告。

CodeQA: プログラムコードに対するQuestion Answering

  • CodeQA: A Question Answering Dataset for Source Code Comprehension [82.6]
    コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。 CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
    論文  参考訳(メタデータ)   (Fri, 17 Sep 2021 06:06:38 GMT)
    • ソースコードに対するQuestion Answeringを行うためのデータセット。コメント文などから生成しているそうだが、他にあまり見ない問題設定のよう思う。
    • リポジトリはhttps://github.com/jadecxliu/CodeQA

SituatedQA:回答のために言語外の文脈が必要なQAデータセット

  • SituatedQA: Incorporating Extra-Linguistic Contexts into QA [7.5]
    SituatedQA(SituatedQA)は,時間的・地理的文脈を考慮に入れた質問に対して,システムが正しい回答を提示しなければならない,オープン検索型QAデータセットである。 質問を求める情報のかなりの割合は、文脈に依存した回答であることがわかった。 我々の研究は、既存のモデルが頻繁に更新される、あるいは珍しい場所から回答を得るのに苦労していることを示している。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 13 Sep 2021 17:53:21 GMT)
    • 回答のために言語外の文脈が必要なQAデータセットの提案。時間的or地理的を表すContext Typeとそれに対応したContext Valueによって答えが変化する。直感的にも予想できる通り、Leaderboardからは人間とモデルの差が大きい解くのが難しい問題のように見える。
    • プロジェクトサイトはhttps://situatedqa.github.io/

PICa(Prompts GPT3 via the use of Image Captions): 画像キャプショニング+GPT-3によるVisual Question Answering

  • An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.6]
    本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。 まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクをfewショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットで教師ありのSoTAを+8.6ポイント上回っている。
    論文  参考訳(メタデータ)   (Fri, 10 Sep 2021 17:51:06 GMT)
    • 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。
      • GPT-3は何をどこまで知っているのだろう・・・?という感想

FairytaleQA : 子どものストーリーブックに対するQA

  • It is AI’s Turn to Ask Human a Question: Question and Answer Pair Generation for Children Storybooks in FairytaleQA Dataset [30.6]
    教育応用においては、教師や親は、言語学習結果を最大化できる子どもにどんな質問をすべきか分からないことがある。 新たにリリースされた書籍QAデータセット(FairytaleQA)を用いて,本アプリケーションのための自動QA生成モデルアーキテクチャを開発した。
    論文  参考訳(メタデータ)   (Wed, 8 Sep 2021 04:11:54 GMT)
    • ルールベースでAnswerを生成、その後BART-baseな手法でQuestionを生成する手順でQAを作ろうという研究。(子供の)教育を目的としている点が興味深い。
    • データセットは公開されていないよう(?)

FinQA: 財務データに対する質問回答

  • FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7]
    我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。 我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。 その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
    論文  参考訳(メタデータ)   (Wed, 1 Sep 2021 00:08:14 GMT)
    • 財務文章に対するQuestion Answeringタスクのデータセット。表形式データを含むこと、数値の推論が必要な事、その過程もデータに含まれている事が特徴的。RoBERTa-largeを組み込んだモデルでも人間のエキスパートには遠く及ばない(Accuracyで65% vs 90%)がクラウドワーカー(同51%)よりは良かったとの結果。
      • 専門家によるアノテーションの重要性が分かる結果な気がする。