EfficientFormer – arXiv最新論文の紹介

EfficientFormer: Vision Transformers at MobileNet Speed [43.9]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。 ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Jun 2022 17:51:03 GMT)
- MobileNetV2 より高速で高性能なTransformer系モデルの提案。性能と速度のトレードオフでEfficientNetも上回っている。遅い部分の特定や高速化の設計なども参考になる。
- EfficientFormerはパラメータ数が少ないわけではないが高速というのが面白い。実機（iPhone 12）で計測されているのも重要だと思う。
  - 「We conclude that nonlinearity should be determined on a case-by-case basis given speciﬁc hardware and compiler at hand.」ですよねー
- リポジトリはGitHub – snap-research/EfficientFormer

コメントを残す

コメントを残す コメントをキャンセル