- UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。 既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (Fri, 19 Nov 2021 03:23:10 GMT)- 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。