コンテンツへスキップ
- NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks [37.7]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。 このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。 我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (Tue, 12 Apr 2022 09:36:10 GMT)- 以下8タスクからなる数学的推論タスクのデータセット。ベースラインも用意されているがかなり困難なタスクに見える。
- TASK 1 Commonsense + Arithmetic
- TASK 2 Domain specific + Arithmetic
- TASK 3 Commonsense + Quantitative
- TASK 4 Fill-in-the-blanks
- TASK 5 RC + Explicit Numerical Reasoning
- TASK 6 RC + Implicit Numerical Reasoning
- TASK 7 Quantitative NLI
- TASK 8 Arithmetic word problems
- プロジェクトサイトはNumGLUE Dataset — Allen Institute for AI (allenai.org)