- A ConvNet for the 2020s [94.9]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。 これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。 本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 10 Jan 2022 18:59:10 GMT)- ResNetに最近の知見を入れ込んでいくことでどのくらい性能が上がるか確認した報告、最終的にSwin Transformersを上回る性能を達成できたとのこと。非常に面白い結果。
- リポジトリはGitHub – facebookresearch/ConvNeXt: Code release for ConvNeXt model