ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.5]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文参考訳（メタデータ） (Mon, 19 May 2025 17:59:27 GMT)
チャートQAなベンチマーク。Gemini-2.5-Pro、o4, o3, Calude 3.7, GPT-4.1もスコアが低い困難なタスク。
プロジェクトサイトはChartMuseum

コメントを残す

コメントを残す コメントをキャンセル