MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.5]
MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
論文参考訳（メタデータ） (Wed, 12 Jun 2024 16:54:54 GMT)
世界モデルとしてのMLLM（例えば物理現象をシミュレートできるか？など）を評価するためのベンチマーク。Leader boardからはGPT-4Vが首位でGeminiProが2位になっている。一方で「Even the best performer, GPT-4V, can only achieve a 52.30% overall accuracy, and four MLLMs particularly trained on videos perform worse than random chance.」という指摘も。MLLMないしビデオ合成系のモデルがWorld modelになりえるかは賛否両論あるが、注目を集めている分野。
リポジトリはMMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos (mmworld-bench.github.io)

コメントを残す

コメントを残す コメントをキャンセル