SlideVQA

  • SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
    52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。 我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
    論文  参考訳(メタデータ)   (Thu, 12 Jan 2023 09:00:42 GMT)
  • スライド画像をベースとしたVQAデータセット。NTTからの発表。
  • リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
  • 評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
    • 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…?(なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ)

Clover: Correlated Video-Language pre-training method

  • Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1]
    さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。 新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。  Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
    論文  参考訳(メタデータ)   (Sat, 16 Jul 2022 09:38:52 GMT)

Video Graph Transformer (VGT) for Video Quetion Answering (VideoQA)

  • Video Graph Transformer for Video Question Answering [182.1]
    本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。 事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
    論文  参考訳(メタデータ)   (Tue, 12 Jul 2022 06:51:32 GMT)
    • ビデオに対するQuestion Answeringのため動画像内のオブジェクトのグラフ構造も用いたTransformerを用いているが、こんなことが可能なんだな。。。という感想。
    • リポジトリはhttps://github.com/sail-sg/VGTとのことだが、今は404

Video Question Answeringのサーベイ

  • Video Question Answering: Datasets, Algorithms and Challenges [99.9]
    Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。 本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 2 Mar 2022 16:34:09 GMT)
    • Video Question Answeringのサーベイ。かなり新しい分野だと思っていただが、2016年にデータセットが出されていたことに驚いた。

NEWSKVQA: ニュースビデオに対するVQAデータセット

  • NEWSKVQA: Knowledge-Aware News Video Question Answering [5.7]
    我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。 我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。 本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
    論文  参考訳(メタデータ)   (Tue, 8 Feb 2022 17:31:31 GMT)
    • ニュースビデオに対するVQA。12Kビデオクリップ、1M QAと非常に大規模なデータ。
    • 論文中にデータセットへのリンク(Google Driveへのリンク)が存在

Natural Language-Centric Outside-Knowledge Visual Question Answeringに対するTransform-Retrieve-Generate framework (TRiG)

  • A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering [47.1]
    画像をプレーンテキストに変換するOK-VQAタスクのパラダイムシフトを求める。 Transform-Retrieve-Generate(TR iG)フレームワークが提案されている。 実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 14 Jan 2022 04:12:46 GMT)
    • Outside-Knowledge Visual Question Answeringは回答には不十分な(外部知識活用を必要とする)画像+質問に回答するタスク。「消火栓の写真+これを使う車の名前は?」に対して「消防車」と答えるような内容。
    • Transform-Retrieve-Generate framework (TRiG)によってOK-VQA (allenai.org)でSoTAを報告。

KAT(Knowledge Augmented Transformer): 画像/言語用の外部知識活用

  • KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.7]
    我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。 提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。 我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
    論文  参考訳(メタデータ)   (Thu, 16 Dec 2021 04:37:10 GMT)
    • Explicit knowledgeをWikipediaなどのリソースから、Implicit knowledgeをGPT-3から取り出して統合、質問に回答する手法の提案。OK-VQA (allenai.org)で既存のSoTAを大幅に更新とのこと。
    • アプローチは論文4ページの図が分かりやすく(それでも複雑だが)、既存モジュールを組み合わせてパイプラインを組んでいる。

GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA

  • Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.0]
    視覚・言語モデルによる文化的・地理的コモンセンス理解能力をテストするためにGeo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。 その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 14 Sep 2021 17:52:55 GMT)
    • 結婚式の画像は地域やその文化によって大幅に異なるなど、地域的特性が出る画像がある。西欧、東アジア、南アジア、アフリカに関する画像328枚と886のQAペアからなるデータセットを作成、VisualBERTとViLBERT(VCRでトレーニング済み)がGD-VCRに対応可能か確認、西欧地域以外では性能が下がることが分かったとのこと。
      • 直感的にはそうなりそうだが確認されると興味深い結果。論文中の分析で地域特性(結婚式、宗教、祭りなど)を含むシナリオのギャップが大きいというのも納得感がある。顧客が登場するシナリオでも差が大きいとのことでこれは地元の商店で買い物をするか、スーパーマーケットで買い物をするかの差ではないかとのこと。この考察も面白い。

PICa(Prompts GPT3 via the use of Image Captions): 画像キャプショニング+GPT-3によるVisual Question Answering

  • An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.6]
    本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。 まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクをfewショットで解決する。 PICaは16の例しか使用せず、OK-VQAデータセットで教師ありのSoTAを+8.6ポイント上回っている。
    論文  参考訳(メタデータ)   (Fri, 10 Sep 2021 17:51:06 GMT)
    • 画像からキャプションテキストを生成、そのテキストを使ってVQA(Visual Question Answering)タスクを解くという論文。このアーキテクチャで教師ありのsotaを上回るというのは驚き。
      • GPT-3は何をどこまで知っているのだろう・・・?という感想