UFO(UniFied TransfOrmer):画像/言語で単一/マルチモーダル対応のTransformer

  • UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.8]
    視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。 既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
    論文  参考訳(メタデータ)   (Fri, 19 Nov 2021 03:23:10 GMT)
    • 単一のモーダル、マルチモーダルの両方をうまく扱えるTransformerの提案。VQA v2等で優れた性能を発揮。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です