- CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations [44.1]
対照的な学習は、負のサンプルの集合から正のペアを対比することで、強力な損失を柔軟に定義することができる。 CrossCLRは、その潜在能力を最大限活用することなく、ビデオとテキストのクロスモーダルな埋め込みを学習する。 これらの原則は、学習された埋め込みの品質を一貫して改善することを示します。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 30 Sep 2021 08:12:21 GMT)- 前の論文と同様にクロスモーダルなContrastive Learning。複数種類のデータを扱うことは自然な拡張ではあるが、研究の進み方が速い。