Video Understanding with Large Language Models: A Survey

  • Video Understanding with Large Language Models: A Survey [101.9]
    本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。 LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。 この調査では、Vid-LLMの様々な領域にわたる拡張的な応用を探求し、その顕著なスケーラビリティと汎用性を示している。
    論文  参考訳(メタデータ)   (Fri, 29 Dec 2023 01:56:17 GMT)
  • LLMとの組み合わせで成果が多く出ているVideo Understandingのサーベイ。初期の手法についても少し記載があるが、最近の発展がすごいこともわかる。
  • リポジトリはyunlong10/Awesome-LLMs-for-Video-Understanding: 🔥🔥🔥Latest Papers, Codes and Datasets on Vid-LLMs. (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です