Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis 

  • Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.1]
    Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。 我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。 我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Fri, 31 May 2024 17:59:47 GMT)
  • ビデオ解析を対象としたベンチマーク。900個、256時間の動画に対して2.7KのQAを人がのテーションしている。ドメインも様々(GitHub – BradyFU/Video-MME: ✨✨Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis)。
  • 現時点のベンチマーク結果はGemini Proがもっともよく、Gemini Flash、GPT-4o、GPT-4Vが続いている。APIによって使えるデータ種類が異なるなど前提を合わせるのが難しい点に注意が必要。例えば「Since the video interface of GPT-4o has not been released yet, we sample 10 frames and evaluate the model using multiple images as input.」という注釈がある。
  • リポジトリはVideo-MME: Welcome

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です