VQA – ページ 2 – arXiv最新論文の紹介

NEWSKVQA: ニュースビデオに対するVQAデータセット

NEWSKVQA: Knowledge-Aware News Video Question Answering [5.7]
我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
論文参考訳（メタデータ） (Tue, 8 Feb 2022 17:31:31 GMT)
- ニュースビデオに対するVQA。12Kビデオクリップ、1M QAと非常に大規模なデータ。
- 論文中にデータセットへのリンク（Google Driveへのリンク）が存在

A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering [47.1]
画像をプレーンテキストに変換するOK-VQAタスクのパラダイムシフトを求める。 Transform-Retrieve-Generate(TR iG)フレームワークが提案されている。実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。
論文参考訳（メタデータ）参考訳（全文） (Fri, 14 Jan 2022 04:12:46 GMT)
- Outside-Knowledge Visual Question Answeringは回答には不十分な（外部知識活用を必要とする）画像＋質問に回答するタスク。「消火栓の写真＋これを使う車の名前は？」に対して「消防車」と答えるような内容。
- Transform-Retrieve-Generate framework (TRiG)によってOK-VQA (allenai.org)でSoTAを報告。

KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.7]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文参考訳（メタデータ） (Thu, 16 Dec 2021 04:37:10 GMT)
- Explicit knowledgeをWikipediaなどのリソースから、Implicit knowledgeをGPT-3から取り出して統合、質問に回答する手法の提案。OK-VQA (allenai.org)で既存のSoTAを大幅に更新とのこと。
- アプローチは論文4ページの図が分かりやすく（それでも複雑だが）、既存モジュールを組み合わせてパイプラインを組んでいる。

Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.0]
視覚・言語モデルによる文化的・地理的コモンセンス理解能力をテストするためにGeo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文参考訳（メタデータ）参考訳（全文） (Tue, 14 Sep 2021 17:52:55 GMT)
- 結婚式の画像は地域やその文化によって大幅に異なるなど、地域的特性が出る画像がある。西欧、東アジア、南アジア、アフリカに関する画像328枚と886のQAペアからなるデータセットを作成、VisualBERTとViLBERT（VCRでトレーニング済み）がGD-VCRに対応可能か確認、西欧地域以外では性能が下がることが分かったとのこと。
  - 直感的にはそうなりそうだが確認されると興味深い結果。論文中の分析で地域特性(結婚式、宗教、祭りなど)を含むシナリオのギャップが大きいというのも納得感がある。顧客が登場するシナリオでも差が大きいとのことでこれは地元の商店で買い物をするか、スーパーマーケットで買い物をするかの差ではないかとのこと。この考察も面白い。
- リポジトリはhttps://github.com/WadeYin9712/GD-VCR

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.6]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクをfewショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットで教師ありのSoTAを+8.6ポイント上回っている。
論文参考訳（メタデータ） (Fri, 10 Sep 2021 17:51:06 GMT)
- 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。
  - GPT-３は何をどこまで知っているのだろう・・・？という感想