PICa(Prompts GPT3 via the use of Image Captions): 画像キャプショニング+GPT-3によるVisual Question Answering

  • An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.6]
    本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。 まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクをfewショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットで教師ありのSoTAを+8.6ポイント上回っている。
    論文  参考訳(メタデータ)   (Fri, 10 Sep 2021 17:51:06 GMT)
    • 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。
      • GPT-3は何をどこまで知っているのだろう・・・?という感想

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です