EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

  • EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.3]
    EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。 自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。 質問は7つの言語ファミリーから11の言語で行われます。
    論文  参考訳(メタデータ)   (Fri, 15 Mar 2024 15:08:39 GMT)
  • MultimodalかつMultilingualなLLM評価用データセット。残念ながら日本語は入っていない。GPT-4はさすがに強く、Gemini Proが続く結果。GPT-4・Gemini ProともにOCR(Google Tesseract for OCR)+画像キャプション(GPT-4V)を併用してAugmented LLMとして問題を解かせた方が性能が良いというのは面白い。視点が違うcall数が増えているからだろうか。
  • 日本語の試験のライセンスが気になるところで、可能ならこの手のデータセットに統合していきたい。。。
  • リポジトリはGitHub – RocktimJyotiDas/EXAMS-V: A Multi-discipline Multilingual Multimodal Exam Benchmark

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です