- All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.9]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。 様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。 このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 15:44:42 GMT) - きわめて多い言語のLLM評価ベンチマーク。タスクはVQA。
- リポジトリはAll Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages