- SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。 我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
論文 参考訳(メタデータ) (Thu, 12 Jan 2023 09:00:42 GMT) - スライド画像をベースとしたVQAデータセット。NTTからの発表。
- リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
- 評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
- 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…?(なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ)