- VLP: A Survey on Vision-Language Pre-training [24.1]
事前学習モデルの出現は、コンピュータビジョン (CV) や自然言語処理 (NLP) のような一様場を新しい時代にもたらした。 本稿では、画像テキストやビデオテキストの事前学習など、視覚言語事前学習の最近の進歩と新たなフロンティアについて調査する。
論文 参考訳(メタデータ) (Mon, 21 Feb 2022 02:58:34 GMT)- image-text、video-textに対するVLP(VisionLanguage Pre-training)に関するサーベイ。8ページと短いが参考になる。6ページの表から非常の多くの手法があることが分かる。。。