- Lila: A Unified Benchmark for Mathematical Reasoning [60.0]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。 我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (Mon, 31 Oct 2022 17:41:26 GMT)- 数学的な推論のためのデータセット。23タスク44データセットと大規模。GPT-Neo-2.7Bをfinetuneしたモデル、GPT-3/Codexのfew shotで検証されておりCodexが比較的高性能。ただ、スコアは高くない。
- プロジェクトサイトはallenai/Lila: A unified benchmark for math reasoning (github.com)。モデルはallenai/bhaskara · Hugging Face
- 名称はバースカラ2世 – Wikipediaの著書からのよう。