Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks [86.7] 大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。 具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。 Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。 論文参考訳(メタデータ) (Thu, 17 Nov 2022 18:59:52 GMT)
「first generalist model that achieves competitive results on major large-scale vision and vision-language tasks」を主張するモデルの提案