- xGQA: Cross-Lingual Visual Question Answering [100.4]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。 確立された英語GQAデータセットを7言語に拡張する。 本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (Mon, 13 Sep 2021 15:58:21 GMT)- 7言語に対応するvisual question answeringデータセット。GQAデータセットを7言語に拡張。ゼロショットでの回答は難しく、few-shotのセッティングだと精度が改善するが依然として簡単ではないタスクであるよう。
- リポジトリはhttps://github.com/Adapter-Hub/xGQA