MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

  • MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.5]
    MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。 この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 16:54:54 GMT)
  • 世界モデルとしてのMLLM(例えば物理現象をシミュレートできるか?など)を評価するためのベンチマーク。Leader boardからはGPT-4Vが首位でGeminiProが2位になっている。一方で「Even the best performer, GPT-4V, can only achieve a 52.30% overall accuracy, and four MLLMs particularly trained on videos perform worse than random chance.」という指摘も。MLLMないしビデオ合成系のモデルがWorld modelになりえるかは賛否両論あるが、注目を集めている分野。
  • リポジトリはMMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos (mmworld-bench.github.io)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です