- Swin Transformer V2: Scaling Up Capacity and Resolution [45.5]
我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536×1,536解像度の画像でトレーニングできるようにする。 キャパシティと解像度をスケールアップすることで、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 18 Nov 2021 18:59:33 GMT)- Object Detectionなどで有名なSwin Transformerのversion 2(アーキテクチャにも手が入れられている)。下記リポジトリにSoTAが並ぶ優れた性能。
- リポジトリはhttps://github.com/microsoft/Swin-Transformer