EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.3]
EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。質問は7つの言語ファミリーから11の言語で行われます。
論文参考訳（メタデータ） (Fri, 15 Mar 2024 15:08:39 GMT)
MultimodalかつMultilingualなLLM評価用データセット。残念ながら日本語は入っていない。GPT-4はさすがに強く、Gemini Proが続く結果。GPT-4・Gemini ProともにOCR(Google Tesseract for OCR)＋画像キャプション（GPT-4V）を併用してAugmented LLMとして問題を解かせた方が性能が良いというのは面白い。視点が違うcall数が増えているからだろうか。
日本語の試験のライセンスが気になるところで、可能ならこの手のデータセットに統合していきたい。。。
リポジトリはGitHub – RocktimJyotiDas/EXAMS-V: A Multi-discipline Multilingual Multimodal Exam Benchmark

コメントを残す

コメントを残す コメントをキャンセル