Video Understanding with Large Language Models: A Survey

  • Video Understanding with Large Language Models: A Survey [101.9]
    本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。 LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。 この調査では、Vid-LLMの様々な領域にわたる拡張的な応用を探求し、その顕著なスケーラビリティと汎用性を示している。
    論文  参考訳(メタデータ)   (Fri, 29 Dec 2023 01:56:17 GMT)
  • LLMとの組み合わせで成果が多く出ているVideo Understandingのサーベイ。初期の手法についても少し記載があるが、最近の発展がすごいこともわかる。
  • リポジトリはyunlong10/Awesome-LLMs-for-Video-Understanding: 🔥🔥🔥Latest Papers, Codes and Datasets on Vid-LLMs. (github.com)

Sports-QA

  • Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [90.8]
    スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。 質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
    論文  参考訳(メタデータ)   (Wed, 3 Jan 2024 02:22:34 GMT)
  • スポーツのビデオに対するQAデータセットの提案。スポーツを対象に細部を聞く質問やプロフェッショナルな選手の行動の因果関係を問うような難しい(実践的な)QAとなっているとのこと。
  • The data and codes will be released.とのこと。

GPT-4Vによるビデオ分析

  • MM-VID: Advancing Video Understanding with GPT-4V(ision) [113.6]
    我々は、GPT-4Vの能力を利用して高度な映像理解を促進する統合システムMM-VIDを提案する。 MM-VIDは、長いビデオや1時間以内のコンテンツの推論のような複雑なタスクによって生じる課題に対処するために設計されている。 ビデオゲームやグラフィックユーザインタフェースといったインタラクティブな環境に適用する際の可能性を示す。
    論文  参考訳(メタデータ)   (Mon, 30 Oct 2023 17:44:09 GMT)
  • GPT-4Vを用いたビデオ対応、そもそも極めて高性能なバックボーンではあるが、(i) Multimodal Pre-Processing,(ii) External Knowledge Collection,(iii) Clip-Level Video Description Generation, (iv) Script Generationと凝ったパイプライン構成になっている。
  • プロジェクトサイトはMM-Vid: Advancing Video Understanding with GPT-4V(ision) (multimodal-vid.github.io)

Imagen Video

  • Imagen Video: High Definition Video Generation with Diffusion Models [64.1]
    Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。  imagen videoは忠実度の高い動画を生成するだけでなく、さまざまな芸術スタイルで多様なビデオやテキストアニメーションを生成できる機能や、3dオブジェクト理解機能など、高度な制御性と世界の知識も備えている。
    論文  参考訳(メタデータ)   (Wed, 5 Oct 2022 14:41:38 GMT)
    • Imagenの動画版、低解像度・低フレームレートの動画から画像方向・時間方向の両面で超解像度化を行っている
    • プロジェクトサイトはImagen Video (research.google)

WildQA

  • WildQA: In-the-Wild Video Question Answering [22.1]
    本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。 また、与えられた質問や回答に対する視覚的支援を識別する新しいタスクについても紹介する。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 13:54:07 GMT)
    • 屋外で記録された映像を用いたVQAデータセット。規模は369本、916QA。ドメインが「Agriculture」「Human survival」「Natural disaster」「Geography」「Military」とかなり特殊。
    • プロジェクトサイトはWildQA: In-the-Wild Video Question Answering (umich.edu)

CLIP-ViP

  • CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3]
    本稿でビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。 提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 05:47:02 GMT)

CelebV-HQ

  • CelebV-HQ: A Large-Scale Video Facial Attributes Dataset [94.3]
    CelebV-HQには35,666本のビデオクリップがあり、解像度は少なくとも512×512で、15,653個のIDが含まれている。 年齢、民族性、明るさ安定性、動きのスムーズさ、頭部の多様性、データ品質の観点から包括的な分析を行う。 その汎用性とポテンシャルは、2つの代表的タスク、すなわち無条件映像生成とビデオ顔属性編集において検証される。
    論文  参考訳(メタデータ)   (Mon, 25 Jul 2022 17:57:07 GMT)

Video Graph Transformer (VGT) for Video Quetion Answering (VideoQA)

  • Video Graph Transformer for Video Question Answering [182.1]
    本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。 事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
    論文  参考訳(メタデータ)   (Tue, 12 Jul 2022 06:51:32 GMT)
    • ビデオに対するQuestion Answeringのため動画像内のオブジェクトのグラフ構造も用いたTransformerを用いているが、こんなことが可能なんだな。。。という感想。
    • リポジトリはhttps://github.com/sail-sg/VGTとのことだが、今は404

Video Question Answeringのサーベイ

  • Video Question Answering: Datasets, Algorithms and Challenges [99.9]
    Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。 本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 2 Mar 2022 16:34:09 GMT)
    • Video Question Answeringのサーベイ。かなり新しい分野だと思っていただが、2016年にデータセットが出されていたことに驚いた。

Video Transformerのサーベイ

  • Video Transformers: A Survey [42.3]
    ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。 具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。 また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
    論文  参考訳(メタデータ)   (Sun, 16 Jan 2022 07:31:55 GMT)
    • 動画処理にもTransformerが使われていることがよくわかるサーベイ