xGQA: 7言語の Visual Question Answering – arXiv最新論文の紹介

xGQA: Cross-Lingual Visual Question Answering [100.4]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。確立された英語GQAデータセットを7言語に拡張する。本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文参考訳（メタデータ） (Mon, 13 Sep 2021 15:58:21 GMT)
- 7言語に対応するvisual question answeringデータセット。GQAデータセットを7言語に拡張。ゼロショットでの回答は難しく、few-shotのセッティングだと精度が改善するが依然として簡単ではないタスクであるよう。
- リポジトリはhttps://github.com/Adapter-Hub/xGQA

コメントを残す

コメントを残す コメントをキャンセル