CLIP-ViP

  • CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3]
    本稿でビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。 提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
    論文  参考訳(メタデータ)   (Wed, 14 Sep 2022 05:47:02 GMT)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です