MathVista

  • MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.0]
    大規模言語モデル(LLM)とLMM(Large Multimodal Models)は、様々な領域において優れたスキルを示すが、視覚的文脈における数学的推論能力は公式には検討されていない。 MathVistaは、様々な数学的・視覚的なタスクから課題を解き放つために設計されたベンチマークである。 MathVistaは、数学的に集約的で視覚的にリッチな現実世界のタスクに対処できる汎用AIエージェントの開発において、将来の研究を加速させる。
    論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 17:57:24 GMT)
  • 視覚情報を含む数学的推論能力のベンチマーク。FQA:figure question answering、GPS: geometry problem solving、MWP:math word problem、TQA: textbook question answering、VQA: visual question answeringで構成される。 
  • 現時点ではMultimodal Bardが最も高いスコアを達成とのこと(GPT-4Vとも一定程度比較は行っているようだが今後のアップデートに期待)いずれにしろ人間から比べるとだいぶ低いスコアで改善の余地は大きい。
  • どうでもよいがLarge Language Models (LLMs) とLarge Multimodal Models (LMMs) がややこしい
  • リポジトリはMathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Context

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です