- CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.9]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。 本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (Fri, 14 Jan 2022 06:49:15 GMT)- 高品質なデータを収集するため「AIを打ち負かす」ゲーミフィケーションを用いてベンチマークを構築。最善のモデル(11BパラメータのUNICORN)でも人間に比べて大幅にスコアが低い難しいデータセットとのこと。
- プロジェクトサイトはExposing the limits of AI through Gamification | CommonsenseQA 2.0 (allenai.github.io)、データのライセンスはCC-BYとのこと。