Visual Parsing with Self-Attention for Vision-Language Pre-training
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training [139.5] Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。 CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。 本研究では,視覚関係をよりよく学習し,モーダル間アライメントを促進するために,VLPのためのフルトランスフォーマー視覚埋め込みを提案する。。 論文参考訳(メタデータ) (Mon, 28 Jun 2021 04:42:48 GMT)
マルチモーダルな事前学習モデルのため画像認識部分にもself-attentionを導入、MLM(Masked Language Modeling)、ITM(Image- Text Matching)、MFR(Masked Feature Regression)を活用してモデルを構築し、UNITERやSOHOを上回る性能を出したとのこと。