All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

  • All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.9]
    ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。 様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。 このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
    論文  参考訳(メタデータ)   (Mon, 25 Nov 2024 15:44:42 GMT)
  • きわめて多い言語のLLM評価ベンチマーク。タスクはVQA。
  • リポジトリはAll Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です