Natural Language-Centric Outside-Knowledge Visual Question Answeringに対するTransform-Retrieve-Generate framework (TRiG)

A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering [47.1]
画像をプレーンテキストに変換するOK-VQAタスクのパラダイムシフトを求める。 Transform-Retrieve-Generate(TR iG)フレームワークが提案されている。実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。
論文参考訳（メタデータ）参考訳（全文） (Fri, 14 Jan 2022 04:12:46 GMT)
- Outside-Knowledge Visual Question Answeringは回答には不十分な（外部知識活用を必要とする）画像＋質問に回答するタスク。「消火栓の写真＋これを使う車の名前は？」に対して「消防車」と答えるような内容。
- Transform-Retrieve-Generate framework (TRiG)によってOK-VQA (allenai.org)でSoTAを報告。

コメントを残す

コメントを残す コメントをキャンセル