- Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1]
さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。 新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。 Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (Sat, 16 Jul 2022 09:38:52 GMT)- マルチモーダルな事前学習モデルの提案。Text to Video RetrievalやVideo Question Answeringにおいて、VIOLETやMERLOT、MCQに対し優位性を主張
- リポジトリはGitHub – LeeYN-43/Clover: Offical PyTorch implementation of Clover: Towards A Unified Video-Language Alignment and Fusion Model