RASO – arXiv最新論文の紹介

Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge [155.8]
Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。 GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
論文参考訳（メタデータ） (Tue, 30 May 2023 08:34:13 GMT)
画像からImageCaptionning＋PLMでありえそうなQAを大量に作ったうえで回答選択モデルによって回答するアプローチの提案。OK-VQAでSoTAを主張。PLMの知識を引き出せているとの見解。
コードとモデルはGenerate then Select: Open-ended Visual Question Answering Guided by World Knowledge – Publications – Cognitive Computation Group (upenn.edu)でリリース予定とのこと

コメントを残す

コメントを残す コメントをキャンセル