RASO

  • Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge [155.8]
    Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。 GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。 我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
    論文  参考訳(メタデータ)   (Tue, 30 May 2023 08:34:13 GMT)
  • 画像からImageCaptionning+PLMでありえそうなQAを大量に作ったうえで回答選択モデルによって回答するアプローチの提案。OK-VQAでSoTAを主張。PLMの知識を引き出せているとの見解。
  • コードとモデルはGenerate then Select: Open-ended Visual Question Answering Guided by World Knowledge – Publications – Cognitive Computation Group (upenn.edu)でリリース予定とのこと

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です