LILA(Lilavatiより?)

  • Lila: A Unified Benchmark for Mathematical Reasoning [60.0]
    LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。 我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
    論文  参考訳(メタデータ)   (Mon, 31 Oct 2022 17:41:26 GMT)
    • 数学的な推論のためのデータセット。23タスク44データセットと大規模。GPT-Neo-2.7Bをfinetuneしたモデル、GPT-3/Codexのfew shotで検証されておりCodexが比較的高性能。ただ、スコアは高くない。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です