SlideVQA

  • SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
    52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。 我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
    論文  参考訳(メタデータ)   (Thu, 12 Jan 2023 09:00:42 GMT)
  • スライド画像をベースとしたVQAデータセット。NTTからの発表。
  • リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
  • 評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
    • 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…?(なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です