Scaling Vision Transformers: 画像の大規模スケーリング

  • Scaling Vision Transformers [82.1]
    本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。 我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。 このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
    論文  参考訳(メタデータ)   (Tue, 8 Jun 2021 17:47:39 GMT)
    • 自然言語処理で効果的だった大規模化を画像で実施したもの。ImageNetでSOTAと効果があるよう。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です