- MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [121.5]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。 近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (Fri, 4 Aug 2023 17:59:47 GMT) - VLなLLMを前提としたマルチモーダルベンチマーク。画像に対する単純な質問というわけではなく複数の能力(例えば画像にある数字を読み取ったうえで計算しないといけない等)が必要なデータセットになっていてより困難。
- リポジトリはGitHub – yuweihao/MM-Vet: MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities