PeCo(Perceptual Codebook)によるBERTスタイルな画像事前学習の改善

  • PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers [102.8]
    本稿では、視覚変換器のBERT事前学習のためのより良いコードブックについて検討する。 対照的に、NLPフィールドの離散トークンは自然に非常に意味がある。 提案した知覚コードブックが生成する視覚的トークンは,より優れた意味を持つことを示す。
    論文  参考訳(メタデータ)   (Wed, 24 Nov 2021 18:59:58 GMT)
    • Masked Autoencoders – arXiv最新論文の紹介 (devneko.jp)のようなBERTライクな事前学習にVQ-VAEを利用、視覚情報(画像)を離散的な情報(コードブック)に変換して扱う事で性能が向上したとの報告。
      • 見た物体に名前を付けていくことで学習を進めていく生物のような機構だなーと感じて面白さと気持ち悪さを感じる。
    • リポジトリはGitHub – microsoft/PeCo

Masked Autoencoders

  • Masked Autoencoders Are Scalable Vision Learners [61.0]
    Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。 我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。 これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 11 Nov 2021 18:46:40 GMT)
    • Masked Autoencoderという自然言語処理を彷彿とさせる学習法の提案。ImageNet-1KでSoTAとのこと。