MuirBench

  • MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.3]
    マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 17:59:52 GMT)
  • マルチイメージ理解のためのデータセット。実用上は割とよくありそうな状況だが、「Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MUIRBENCH, achieving 68.0% and 49.3% in accuracy.」と説くのが難しいよう。
  • リポジトリはMUIRBENCH/MUIRBENCH · Datasets at Hugging Face

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です