How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers [74.1] ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。 我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。 私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。 論文参考訳(メタデータ) (Fri, 18 Jun 2021 17:58:20 GMT)
「We release more than 50’000 ViT models trained under diverse settings on various datasets.」と大規模なViTの検証。augmentationや regularizationの効果はデータセットの大きさによって変わる(状況によっては意味がない)など面白い結果。