Natural Language-Centric Outside-Knowledge Visual Question Answeringに対するTransform-Retrieve-Generate framework (TRiG)

  • A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering [47.1]
    画像をプレーンテキストに変換するOK-VQAタスクのパラダイムシフトを求める。 Transform-Retrieve-Generate(TR iG)フレームワークが提案されている。 実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 14 Jan 2022 04:12:46 GMT)
    • Outside-Knowledge Visual Question Answeringは回答には不十分な(外部知識活用を必要とする)画像+質問に回答するタスク。「消火栓の写真+これを使う車の名前は?」に対して「消防車」と答えるような内容。
    • Transform-Retrieve-Generate framework (TRiG)によってOK-VQA (allenai.org)でSoTAを報告。