ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

  • ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.5]
    視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。 次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。 人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 17:59:27 GMT)
  • チャートQAなベンチマーク。Gemini-2.5-Pro、o4, o3, Calude 3.7, GPT-4.1もスコアが低い困難なタスク。
  • プロジェクトサイトはChartMuseum

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です