All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.9]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文参考訳（メタデータ） (Mon, 25 Nov 2024 15:44:42 GMT)
きわめて多い言語のLLM評価ベンチマーク。タスクはVQA。
リポジトリはAll Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

コメントを残す

コメントを残す コメントをキャンセル