Scaling Vision Transformers: 画像の大規模スケーリング

Scaling Vision Transformers [82.1]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文参考訳（メタデータ） (Tue, 8 Jun 2021 17:47:39 GMT)
- 自然言語処理で効果的だった大規模化を画像で実施したもの。ImageNetでSOTAと効果があるよう。

コメントを残す

コメントを残す コメントをキャンセル