コンテンツへスキップ
- PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.8]
本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。 対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。 提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
論文 参考訳(メタデータ) (Wed, 24 Nov 2021 18:59:58 GMT)
- Masked Autoencoders Are Scalable Vision Learners [61.0]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。 我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。 これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 11 Nov 2021 18:46:40 GMT)- Masked Autoencoderという自然言語処理を彷彿とさせる学習法の提案。ImageNet-1KでSoTAとのこと。