CLIP-ViP – arXiv最新論文の紹介

CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3]
本稿でビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文参考訳（メタデータ） (Wed, 14 Sep 2022 05:47:02 GMT)
- CLIPをビデオ対応させる（画像モデルを最小限の変更でビデオドメインに適合させる）研究。MSR-VTTなど複数のデータセットでSoTAを主張。
- リポジトリはXPretrain/CLIP-ViP at main · microsoft/XPretrain (github.com)

コメントを残す

コメントを残す コメントをキャンセル