- Video Understanding with Large Language Models: A Survey [101.9]
本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。 LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。 この調査では、Vid-LLMの様々な領域にわたる拡張的な応用を探求し、その顕著なスケーラビリティと汎用性を示している。
論文 参考訳(メタデータ) (Fri, 29 Dec 2023 01:56:17 GMT) - LLMとの組み合わせで成果が多く出ているVideo Understandingのサーベイ。初期の手法についても少し記載があるが、最近の発展がすごいこともわかる。
- リポジトリはyunlong10/Awesome-LLMs-for-Video-Understanding: 🔥🔥🔥Latest Papers, Codes and Datasets on Vid-LLMs. (github.com)