Clover: Correlated Video-Language pre-training method

  • Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1]
    さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。 新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。  Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
    論文  参考訳(メタデータ)   (Sat, 16 Jul 2022 09:38:52 GMT)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です