Vision-RWKV

  • Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [99.2]
    本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。 スパース入力を効率的に処理し、ロバストなグローバル処理能力を示すように設計されている。 画像分類における評価では,VRWKVはViTの分類性能と著しく高速で,メモリ使用量が少ないことが示されている。
    論文  参考訳(メタデータ)   (Mon, 4 Mar 2024 18:46:20 GMT)
  • RWKVの画像分野への応用。Vision Transformerと比べ性能的には同等、メモリ・速度の効率は大幅に優れているように見える。
  • リポジトリはOpenGVLab/Vision-RWKV: Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures (github.com)

EVA-02: A Visual Representation for Neon Genesis

  • EVA-02: A Visual Representation for Neon Genesis [49.9]
    EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。 モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
    論文  参考訳(メタデータ)   (Wed, 22 Mar 2023 14:10:37 GMT)
  • 非常に規模が大きいわけでもないが強力なVision Transformersの提案。オープンライセンスのモデルが公開されている。
  • リポジトリはEVA/EVA-02 at master · baaivision/EVA · GitHub

堅牢なViTへのレシピ

  • A Light Recipe to Train Robust Vision Transformers [34.5]
    我々は、ViTが、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。 我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。 提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 15 Sep 2022 16:00:04 GMT)
    • 堅牢なViT実現に向けた学習方法の提案。XCiTをベースにシンプルなデータ拡張、warmupとdecayを変更。様々な手法との比較が参考になる。

Auto-ViT-Acc: FPGA用アクセラレーションフレームワーク

  • Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision Transformer with Mixed-Scheme Quantization [78.2]
    コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。 本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 10 Aug 2022 05:54:46 GMT)
    • FPGAの特性を考慮した高速化フレームワーク

ViTの大規模検証

  • How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers [74.1]
    ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。 我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。 私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
    論文  参考訳(メタデータ)   (Fri, 18 Jun 2021 17:58:20 GMT)
    • 「We release more than 50’000 ViT models trained under diverse settings on various datasets.」と大規模なViTの検証。augmentationや regularizationの効果はデータセットの大きさによって変わる(状況によっては意味がない)など面白い結果。