CPT(Cross-modal Prompt Tuning / Colorful Prompt Tuning):画像/言語のプロンプトチューニング

  • CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5]
    我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。 CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。 総合的な実験結果から、VL-PTM(Pre-Trained Vision-Language Models)のプロンプトチューニングは、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
    論文  参考訳(メタデータ)   (Fri, 24 Sep 2021 08:07:29 GMT)
    • 「画像中の参照領域を特定の色で塗りつぶす」+「テキスト部分にも対応する色を入れる」ことにより画像とテキストを結びつける事でvisual grounding問題を穴埋め問題に再構成しプロンプトを実現(論文の図を見るのが分かりやすい)。Few-shotとZero-shotの設定ではfine tuningを上回る性能とのこと。
      • 本当にできるのか?と思うくらい面白い成果。
    • データとコードが公開されるとのことで詳細はそれを確認したい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です