MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3] マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。 論文参考訳(メタデータ) (Thu, 13 Jun 2024 17:59:52 GMT)
マルチイメージ理解のためのデータセット。実用上は割とよくありそうな状況だが、「Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MUIRBENCH, achieving 68.0% and 49.3% in accuracy.」と説くのが難しいよう。