- CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3]
本稿でビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。 提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (Wed, 14 Sep 2022 05:47:02 GMT)- CLIPをビデオ対応させる(画像モデルを最小限の変更でビデオドメインに適合させる)研究。MSR-VTTなど複数のデータセットでSoTAを主張。
- リポジトリはXPretrain/CLIP-ViP at main · microsoft/XPretrain (github.com)