CPT(Cross-modal Prompt Tuning / Colorful Prompt Tuning):画像/言語のプロンプトチューニング

CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。 CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。総合的な実験結果から、VL-PTM(Pre-Trained Vision-Language Models)のプロンプトチューニングは、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文参考訳（メタデータ） (Fri, 24 Sep 2021 08:07:29 GMT)
- 「画像中の参照領域を特定の色で塗りつぶす」＋「テキスト部分にも対応する色を入れる」ことにより画像とテキストを結びつける事でvisual grounding問題を穴埋め問題に再構成しプロンプトを実現（論文の図を見るのが分かりやすい）。Few-shotとZero-shotの設定ではfine tuningを上回る性能とのこと。
  - 本当にできるのか？と思うくらい面白い成果。
- データとコードが公開されるとのことで詳細はそれを確認したい。

コメントを残す

コメントを残す コメントをキャンセル