MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer [24.5] モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。 以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。 論文参考訳(メタデータ) (Tue, 5 Oct 2021 17:07:53 GMT)
パラメータ数が同等のMobileNetv3(CNN系)、DeIT(ViT系)を上回る性能を出せる軽量なVision Transformerの報告。結局、ViTs are slower than CNNsって・・・とは思わなくはないが、Transformerの利用は広まっているのでハードウェア演算による支援が普通になる未来を期待。