Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training [79.9] VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。 VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。 論文参考訳(メタデータ)参考訳(全文) (Mon, 19 Apr 2021 15:58:45 GMT)