Visual Parsing with Self-Attention for Vision-Language Pre-training

  • Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training [139.5]
    Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。 CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。 本研究では,視覚関係をよりよく学習し,モーダル間アライメントを促進するために,VLPのためのフルトランスフォーマー視覚埋め込みを提案する。。
    論文  参考訳(メタデータ)   (Mon, 28 Jun 2021 04:42:48 GMT)
    • マルチモーダルな事前学習モデルのため画像認識部分にもself-attentionを導入、MLM(Masked Language Modeling)、ITM(Image- Text Matching)、MFR(Masked Feature Regression)を活用してモデルを構築し、UNITERSOHOを上回る性能を出したとのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です