SlideVQA – arXiv最新論文の紹介

SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
論文参考訳（メタデータ） (Thu, 12 Jan 2023 09:00:42 GMT)
スライド画像をベースとしたVQAデータセット。NTTからの発表。
リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
- 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…？（なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ）

コメントを残す

コメントを残す コメントをキャンセル