ViT – arXiv最新論文の紹介

On the Surprising Effectiveness of Attention Transfer for Vision Transformers

On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.8]
従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。予備学習で学んだ特徴や表現は必須ではない。
論文参考訳（メタデータ） (Thu, 14 Nov 2024 18:59:40 GMT)
「Surprisingly, using only the attention patterns from pre-training (i.e., guiding how information flows between tokens) is sufficient for models to learn high quality features from scratch and achieve comparable downstream performance.」というほんまかいなという報告。「Our key finding is that the attention patterns (inter-token operations) are the key factor behind much of the effectiveness of pre-training – our Attention Distillation method completely matches fine-tuning on ImageNet-1K.」という結果とのことで面白い。
リポジトリはalexlioralexli/attention-transfer · GitHub（現状ではコードはアップロードされていない）

Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.2]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。 DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文参考訳（メタデータ） (Sat, 03 Aug 2024 08:07:03 GMT)
下流タスクをターゲットとした攻撃手法の提案。downstream transfer attacks (DTAs)は有効とのこと。また、「We also found that emerging PETL methods like LoRA are more susceptible to transfer attacks crafted on the pre-trained model.」という指摘はそうだろうと思いつつ、有用な方法なので頭が痛い。

Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [99.2]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。スパース入力を効率的に処理し、ロバストなグローバル処理能力を示すように設計されている。画像分類における評価では,VRWKVはViTの分類性能と著しく高速で,メモリ使用量が少ないことが示されている。
論文参考訳（メタデータ） (Mon, 4 Mar 2024 18:46:20 GMT)
RWKVの画像分野への応用。Vision Transformerと比べ性能的には同等、メモリ・速度の効率は大幅に優れているように見える。
リポジトリはOpenGVLab/Vision-RWKV: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures (github.com)

EVA-02: A Visual Representation for Neon Genesis [49.9]
EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 14:10:37 GMT)
非常に規模が大きいわけでもないが強力なVision Transformersの提案。オープンライセンスのモデルが公開されている。
リポジトリはEVA/EVA-02 at master · baaivision/EVA · GitHub

A Light Recipe to Train Robust Vision Transformers [34.5]
我々は、ViTが、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文参考訳（メタデータ） (Thu, 15 Sep 2022 16:00:04 GMT)
- 堅牢なViT実現に向けた学習方法の提案。XCiTをベースにシンプルなデータ拡張、warmupとdecayを変更。様々な手法との比較が参考になる。

Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision Transformer with Mixed-Scheme Quantization [78.2]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文参考訳（メタデータ） (Wed, 10 Aug 2022 05:54:46 GMT)
- FPGAの特性を考慮した高速化フレームワーク

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers [74.1]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文参考訳（メタデータ） (Fri, 18 Jun 2021 17:58:20 GMT)
- 「We release more than 50’000 ViT models trained under diverse settings on various datasets.」と大規模なViTの検証。augmentationや regularizationの効果はデータセットの大きさによって変わる（状況によっては意味がない）など面白い結果。