On the Surprising Effectiveness of Attention Transfer for Vision Transformers

  • On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.8]
    従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。 予備学習で学んだ特徴や表現は必須ではない。
    論文  参考訳(メタデータ)   (Thu, 14 Nov 2024 18:59:40 GMT)
  • 「Surprisingly, using only the attention patterns from pre-training (i.e., guiding how information flows between tokens) is sufficient for models to learn high quality features from scratch and achieve comparable downstream performance.」というほんまかいなという報告。「Our key finding is that the attention patterns (inter-token operations) are the key factor behind much of the effectiveness of pre-training – our Attention Distillation method completely matches fine-tuning on ImageNet-1K.」という結果とのことで面白い。
  • リポジトリはalexlioralexli/attention-transfer · GitHub(現状ではコードはアップロードされていない)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です