PICa(Prompts GPT3 via the use of Image Captions): 画像キャプショニング+GPT-3によるVisual Question Answering

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.6]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクをfewショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットで教師ありのSoTAを+8.6ポイント上回っている。
論文参考訳（メタデータ） (Fri, 10 Sep 2021 17:51:06 GMT)
- 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。
  - GPT-３は何をどこまで知っているのだろう・・・？という感想

コメントを残す

コメントを残す コメントをキャンセル