- An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.6]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。 まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクをfewショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットで教師ありのSoTAを+8.6ポイント上回っている。
論文 参考訳(メタデータ) (Fri, 10 Sep 2021 17:51:06 GMT)- 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。
- GPT-3は何をどこまで知っているのだろう・・・?という感想
- 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。