- LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。 私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。 我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (Mon, 22 Jul 2024 16:00:55 GMT) - 8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
- プロジェクトサイトはLongVideoBench