Question Answeringデータセットの調査

QA Dataset Explosion: A Taxonomy of NLP Resources for Question Answering and Reading Comprehension [41.6]
我々は、現在のリソースの様々なフォーマットとドメインの概要を述べ、将来の作業における現在の隙間を強調します。また、英語に対する過剰な焦点付けの影響についても論じ、他の言語や多言語リソースに対する現在のモノリンガルリソースについて調査する。
論文参考訳（メタデータ） (Tue, 27 Jul 2021 10:09:13 GMT)
- 引用数295という大規模なQAデータセットの調査結果。問題の構成、ドメイン、言語など様々な側面でデータセットを分類しており非常に参考になる。モノリンガルなリソースだと、日本語データセットは4番目（1位は英語、2位は中国語、3位はロシア語）に多いとのこと。

コメントを残す

コメントを残す コメントをキャンセル