コンテンツへスキップ
- EVA-02: A Visual Representation for Neon Genesis [49.9]
EVA-02はトランスフォーマーをベースとした次世代の視覚表現で、頑丈で堅牢な言語対応の視覚機能を再構築するために事前訓練されている。 モデルサイズは6Mから304Mのパラメータで、4種類のEVA-02が提供されています。
論文 参考訳(メタデータ) (Wed, 22 Mar 2023 14:10:37 GMT)
- 非常に規模が大きいわけでもないが強力なVision Transformersの提案。オープンライセンスのモデルが公開されている。
- リポジトリはEVA/EVA-02 at master · baaivision/EVA · GitHub
- A Light Recipe to Train Robust Vision Transformers [34.5]
我々は、ViTが、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。 我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。 提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文 参考訳(メタデータ) (Thu, 15 Sep 2022 16:00:04 GMT)- 堅牢なViT実現に向けた学習方法の提案。XCiTをベースにシンプルなデータ拡張、warmupとdecayを変更。様々な手法との比較が参考になる。
- Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision Transformer with Mixed-Scheme Quantization [78.2]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。 本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文 参考訳(メタデータ) (Wed, 10 Aug 2022 05:54:46 GMT)
- How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers [74.1]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。 我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。 私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (Fri, 18 Jun 2021 17:58:20 GMT)- 「We release more than 50’000 ViT models trained under diverse settings on various datasets.」と大規模なViTの検証。augmentationや regularizationの効果はデータセットの大きさによって変わる(状況によっては意味がない)など面白い結果。