コンテンツへスキップ
- MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.9]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。 具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。 本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 20 Dec 2021 18:23:30 GMT)- クロスメディア(画像、キャプション、ニュース本文)、マルチホップなQAデータセットの提案。人間が作成した評価用データは1384、自動生成された学習用(Silver Training Set)のデータを含むのが特徴的。Oscar-largeでも人間に比べて大幅に性能が悪い難しいデータセットになっている。
- リポジトリはGitHub – uiucnlp/MuMuQAだがcoming soon
- 3D Question Answering [22.2]
VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。 本稿では,新しい3DQAフレームワーク 3DQA-TR を提案する。 提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットScanQAを開発した。
論文 参考訳(メタデータ) (Wed, 15 Dec 2021 18:59:59 GMT)
- Human Parity on CommonsenseQA: Augmenting Self-Attention with External Attention [66.9]
本稿では,外部の知識や状況に配慮した外部アテンション機構を備えたトランスフォーマーアーキテクチャの強化を提案する。 提案した外部注意機構は,既存のAIシステムの性能を大幅に向上させることができる。 提案システムは、オープンなCommonsenseQA研究ベンチマークにおいて、89.4%の精度で人間の88.9%に匹敵する。
論文 参考訳(メタデータ) (Mon, 6 Dec 2021 18:59:02 GMT)- Knowledge Graph、Dictionary、Training Dataを外部知識として活用可能な構造を提案、CommonsenseQAで89.4%と人の精度に匹敵する性能を達成。
- リーダーボードはLeaderboard | tau-nlp
- ContraQA: Question Answering under Contradicting Contexts [86.0]
矛盾する文脈下でのQAモデルの振る舞いを調査し,QAモデルに対する誤報のリスクについて検討する。 質問応答と誤情報検出を統合した対応策として,誤情報認識型QAシステムを構築した。
論文 参考訳(メタデータ) (Fri, 15 Oct 2021 01:55:18 GMT)- SQuADをベースに偽情報を混在したQAを作成、評価。既存のQAシステムの性能が大幅に劣化することを確認。実用上はfake news検知のようなものを内包しないといけないのだろうと思いつつ、人間でも難しいタスクが設定されつつある状況が興味深い。
- データ等は公開予定とのこと。
- A Few More Examples May Be Worth Billions of Parameters [26.1]
モデルパラメータ数の増加とラベル付き例数の増加のダイナミクスについて検討する。 オープンな質問応答タスクでは、トレーニングセットを拡大してもパフォーマンスは向上しない。 対照的に、分類、抽出的質問応答、および複数の選択タスクは、追加の例から非常に恩恵を受けており、数百のサンプルを集めることは、しばしば数十億のパラメータ分の価値がある。
論文 参考訳(メタデータ) (Fri, 8 Oct 2021 20:51:52 GMT)- 内容は論文中の図が分かりやすく、データを増やすよりパラメータを増加させた方が精度向上に効果がある場合(例:オープンなQA)を報告している。
- データ収集を頑張るべきかモデルサイズを大きくするなどモデル側を頑張るべきかは良く議論になる。普通は前者の方が効果的とされることが多いが、実証的に確認するべきであることを再認識する報告。論文中に指摘がある通りオープンQAの形式にするな(難しいタスクに落とし込むな)という点も重要。
- Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering Approach for Open-Domain Question Answering [77.0]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。 我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (Thu, 14 Oct 2021 04:36:29 GMT)- 複数の言語で一般的な質問に回答可能なモデルの提案。単言語のモデル:MONOLINGUAL GENQA、多言語のモデル:MULTILINGUAL GENQA、複数言語の回答を合成するCROSSLINGUAL GENQAを比較、単言語モデルよりも優れている場合があることを示している。
- 言語間差異が大きく興味深い実験・結果だが(論文中にも指摘がある通り)途中に機械翻訳を挟んだ影響が気になる。
- ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers [93.6]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。 このデータセットを ConditionalQA と呼びます。 本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文 参考訳(メタデータ) (Wed, 13 Oct 2021 17:16:46 GMT)
- GNN is a Counter? Revisiting GNN for Question Answering [105.8]
State-of-the-art Question Answering (QA)システムは通常、LMに符号化された知識にアクセスするために、訓練済み言語モデル(LM)を使用する。 知識グラフ(KG)の推論を行うグラフニューラルネットワーク(GNN)に基づく精巧に設計されたモジュール 我々の研究は、既存の知識を意識したGNNモジュールがカウントなどの単純な理由のみを実行することを明らかにしている。
論文 参考訳(メタデータ) (Thu, 7 Oct 2021 05:44:52 GMT)- QAタスクの高精度化ではGraph Neural Networkが使われることが多い。Graph Soft Counter (GSC)というEdge encoderとスコアを合算レイヤーのみを持つシンプルな構造で既存の複雑なGNNより良い性能を達成できたとのこと。モデルサイズはわずか3Kと驚きの結果。
- NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering Dataset [26.8]
数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。 我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5のEMスコアしか達成できないことを示す。 また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 22 Sep 2021 09:17:09 GMT)- 算数の文章題のような数値推論を必要とするQAを含むバイリンガル(英語、中国語)のデータセットを提案。データ数は約20K。先端的な構造を使っても人間とのパフォーマンス差が大きいと報告。
- CodeQA: A Question Answering Dataset for Source Code Comprehension [82.6]
コードスニペットと質問が与えられたら、テキストによる回答を生成する必要がある。 CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。
論文 参考訳(メタデータ) (Fri, 17 Sep 2021 06:06:38 GMT)