言語モデルを利用したマルチモーダルなFew Shotモデル

Multimodal Few-Shot Learning with Frozen Language Models [36.8]
十分な規模でトレーニングを行うと、自動回帰言語モデルは、ほんの数例で促された後、新しい言語タスクを学習する顕著な能力を示す。本稿では,このマイナショット学習能力をマルチモーダル環境(ビジョンと言語)に移すための,単純かつ効果的なアプローチを提案する。我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
論文参考訳（メタデータ） (Fri, 25 Jun 2021 21:07:09 GMT)
- 事前学習を行った言語モデルをマルチモーダル環境(画像とテキスト)に拡張する研究。言語モデルを構築しフリーズ。画像エンコーダをprompt作成用に構築。組み合わせるとマルチモーダルなFewShot可能なモデルとなるよう。
- ほんとか？という感じで面白い結果。

コメントを残す

コメントを残す コメントをキャンセル