EfficientFormer

  • EfficientFormer: Vision Transformers at MobileNet Speed [43.9]
    Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。 ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。 近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 2 Jun 2022 17:51:03 GMT)
    • MobileNetV2 より高速で高性能なTransformer系モデルの提案。性能と速度のトレードオフでEfficientNetも上回っている。遅い部分の特定や高速化の設計なども参考になる。
    • EfficientFormerはパラメータ数が少ないわけではないが高速というのが面白い。実機(iPhone 12)で計測されているのも重要だと思う。
      • 「We conclude that nonlinearity should be determined on a case-by-case basis given specific hardware and compiler at hand.」ですよねー

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です