Question Answering – ページ 5 – arXiv最新論文の紹介

英語以外のQuestion Answeringデータセット

A Survey on non-English Question Answering Dataset [0.0]
この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
論文参考訳（メタデータ） (Mon, 27 Dec 2021 12:45:06 GMT)
- 英語以外のQAデータセットのサーベイ。日本語で挙げられていたJP-Newsは公開されているんだろうか・・・？

MuMuQA(Multimedia Multi-Hop news Question Answering)

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding [131.9]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文参考訳（メタデータ）参考訳（全文） (Mon, 20 Dec 2021 18:23:30 GMT)
- クロスメディア（画像、キャプション、ニュース本文）、マルチホップなQAデータセットの提案。人間が作成した評価用データは1384、自動生成された学習用（Silver Training Set）のデータを含むのが特徴的。Oscar-largeでも人間に比べて大幅に性能が悪い難しいデータセットになっている。
- リポジトリはGitHub – uiucnlp/MuMuQAだがcoming soon

3D Question Answering：3次元の質問回答データセットScanQAと3DQA-TRフレームワーク

3D Question Answering [22.2]
VQA(Visual Question Answering)を3Dドメインに拡張する最初の試みを示す。本稿では,新しい3DQAフレームワーク 3DQA-TR を提案する。提案する3DQAフレームワークの有効性を検証するため,最初の3DQAデータセットScanQAを開発した。
論文参考訳（メタデータ） (Wed, 15 Dec 2021 18:59:59 GMT)
- ありそうでなかった3次元空間上のQAデータセットとそれを扱うフレームワークの提案。ScanNet | Richly-annotated 3D Reconstructions of Indoor Scenes (scan-net.org)の806シーンに対して6K質問、30K回答とそれなりの規模。
- データ等は公開予定とのこと。

KEAR(Knowledge External Attention for Reasoning ): 回答に常識が必要なCommonsenseQAで人間に匹敵

Human Parity on CommonsenseQA: Augmenting Self-Attention with External Attention [66.9]
本稿では,外部の知識や状況に配慮した外部アテンション機構を備えたトランスフォーマーアーキテクチャの強化を提案する。提案した外部注意機構は,既存のAIシステムの性能を大幅に向上させることができる。提案システムは、オープンなCommonsenseQA研究ベンチマークにおいて、89.4%の精度で人間の88.9%に匹敵する。
論文参考訳（メタデータ） (Mon, 6 Dec 2021 18:59:02 GMT)
- Knowledge Graph、Dictionary、Training Dataを外部知識として活用可能な構造を提案、CommonsenseQAで89.4%と人の精度に匹敵する性能を達成。
- リーダーボードは Leaderboard | tau-nlp

ContraQA: 誤情報が混在したQA

ContraQA: Question Answering under Contradicting Contexts [86.0]
矛盾する文脈下でのQAモデルの振る舞いを調査し,QAモデルに対する誤報のリスクについて検討する。質問応答と誤情報検出を統合した対応策として,誤情報認識型QAシステムを構築した。
論文参考訳（メタデータ） (Fri, 15 Oct 2021 01:55:18 GMT)
- SQuADをベースに偽情報を混在したQAを作成、評価。既存のQAシステムの性能が大幅に劣化することを確認。実用上はfake news検知のようなものを内包しないといけないのだろうと思いつつ、人間でも難しいタスクが設定されつつある状況が興味深い。
- データ等は公開予定とのこと。

データを集めるべきか、モデルを工夫すべきか

A Few More Examples May Be Worth Billions of Parameters [26.1]
モデルパラメータ数の増加とラベル付き例数の増加のダイナミクスについて検討する。オープンな質問応答タスクでは、トレーニングセットを拡大してもパフォーマンスは向上しない。対照的に、分類、抽出的質問応答、および複数の選択タスクは、追加の例から非常に恩恵を受けており、数百のサンプルを集めることは、しばしば数十億のパラメータ分の価値がある。
論文参考訳（メタデータ） (Fri, 8 Oct 2021 20:51:52 GMT)
- 内容は論文中の図が分かりやすく、データを増やすよりパラメータを増加させた方が精度向上に効果がある場合（例：オープンなQA）を報告している。
- データ収集を頑張るべきかモデルサイズを大きくするなどモデル側を頑張るべきかは良く議論になる。普通は前者の方が効果的とされることが多いが、実証的に確認するべきであることを再認識する報告。論文中に指摘がある通りオープンQAの形式にするな（難しいタスクに落とし込むな）という点も重要。

Cross-Lingual GenQA（Generative Question Answering ）: クロスリンガルなQA

Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering Approach for Open-Domain Question Answering [77.0]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文参考訳（メタデータ） (Thu, 14 Oct 2021 04:36:29 GMT)
- 複数の言語で一般的な質問に回答可能なモデルの提案。単言語のモデル：MONOLINGUAL GENQA、多言語のモデル：MULTILINGUAL GENQA、複数言語の回答を合成するCROSSLINGUAL GENQAを比較、単言語モデルよりも優れている場合があることを示している。
  - 言語間差異が大きく興味深い実験・結果だが（論文中にも指摘がある通り）途中に機械翻訳を挟んだ影響が気になる。
- リポジトリはhttps://github.com/alexa/wqa-cascade-transformers/tree/master/arxiv2021mgqa

ConditionalQA: 条件に応じた回答を含むQAデータセット

ConditionalQA: A Complex Reading Comprehension Dataset with Conditional Answers [93.6]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。このデータセットを ConditionalQA と呼びます。本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文参考訳（メタデータ） (Wed, 13 Oct 2021 17:16:46 GMT)
- 質問に対して「〇〇の場合はyes」「△△の場合はno」のように、回答に条件があるタイプのQAデータセット。機械的に解くことは簡単ではなく人間とのスコア差が大きいとのこと。この手の質問回答は現実社会で普通に見られるため重要なタスクであるとの印象。
- リポジトリはhttps://github.com/haitian-sun/ConditionalQA、リーダーボードも存在。

QAにおけるGNNの役割はカウンターとして動作しているのみ？

GNN is a Counter? Revisiting GNN for Question Answering [105.8]
State-of-the-art Question Answering (QA)システムは通常、LMに符号化された知識にアクセスするために、訓練済み言語モデル(LM)を使用する。知識グラフ(KG)の推論を行うグラフニューラルネットワーク(GNN)に基づく精巧に設計されたモジュール我々の研究は、既存の知識を意識したGNNモジュールがカウントなどの単純な理由のみを実行することを明らかにしている。
論文参考訳（メタデータ） (Thu, 7 Oct 2021 05:44:52 GMT)
- QAタスクの高精度化ではGraph Neural Networkが使われることが多い。Graph Soft Counter (GSC)というEdge encoderとスコアを合算レイヤーのみを持つシンプルな構造で既存の複雑なGNNより良い性能を達成できたとのこと。モデルサイズはわずか3Kと驚きの結果。

NOAHQA(Numerical reasOning with interpretAble grapH QA dataset): 数値推論を必要とするバイリンガルQAデータセット

NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering Dataset [26.8]
数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5のEMスコアしか達成できないことを示す。また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
論文参考訳（メタデータ）参考訳（全文） (Wed, 22 Sep 2021 09:17:09 GMT)
- 算数の文章題のような数値推論を必要とするQAを含むバイリンガル（英語、中国語）のデータセットを提案。データ数は約20K。先端的な構造を使っても人間とのパフォーマンス差が大きいと報告。
- リポジトリはhttps://github.com/Don-Joey/NoahQA

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31