LongVideoBench

  • LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
    LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。 私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。 我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
    論文  参考訳(メタデータ)   (Mon, 22 Jul 2024 16:00:55 GMT)
  • 8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
  • プロジェクトサイトはLongVideoBench

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です