TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding [48.5]
我々は、長いビデオ理解の課題に取り組むために設計されたハイブリッドビジョン言語モデルであるTimeViperを紹介する。 TimeViperは、状態空間モデルの効率性とアテンションメカニズムの表現性を組み合わせたハイブリッドなMamba-Transformerバックボーンを採用している。この研究は、ハイブリッドなMamba-Transformerアーキテクチャを開発し、解釈し、圧縮するための最初のステップである。
論文参考訳（メタデータ） (Thu, 20 Nov 2025 17:48:21 GMT)
Mambaハイブリッドの構造で「TimeViper to process hour-long videos exceeding 10,000 frames」という長い動画を扱えるモデルの提案
リポジトリはTimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

コメントを残す

コメントを残す コメントをキャンセル