Uni-Perceiver v2

  • Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks [86.7]
    大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。 具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。 Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 18:59:52 GMT)
  • 「first generalist model that achieves competitive results on major large-scale vision and vision-language tasks」を主張するモデルの提案
  • リポジトリはfundamentalvision/Uni-Perceiver (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です