2023年1月20日 – arXiv最新論文の紹介

MAQA: A Multimodal QA Benchmark for Negation [12.1]
マルチモーダル学習は、事前学習された大規模言語モデル(LLM)の表現力の恩恵を受けることができる本稿では,AudioSetのラベル付き音楽ビデオから適応したマルチモーダル質問応答(QA)ベンチマークを提案する。モデルサイズに関わらず,マルチモーダル変圧器の標準的な微調整手法では,否定を正しく解釈することができないことを示す。
論文参考訳（メタデータ） (Mon, 9 Jan 2023 10:11:23 GMT)
現状のモデルが苦手とする否定表現に対応するためのタスク拡張手法の提案。テンプレートベースのタスク拡張に比べてPaLMを利用した場合のほうが性能が良く、大規模言語モデルを併用した戦略は良く機能するよう。
構築したデータセットは公開予定とのこと

SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
論文参考訳（メタデータ） (Thu, 12 Jan 2023 09:00:42 GMT)
スライド画像をベースとしたVQAデータセット。NTTからの発表。
リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
- 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…？（なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ）