ConvNeXt: ResNetの近代化

  • A ConvNet for the 2020s [94.9]
    ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。 これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。 本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 10 Jan 2022 18:59:10 GMT)

X-volution: Convolution + Self-attention

  • X-volution: On the unification of convolution and self-attention [52.8]
    本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。 提案したX-volutionは、非常に競争力のある視覚的理解の改善を実現する。
    論文  参考訳(メタデータ)   (Fri, 4 Jun 2021 04:32:02 GMT)
    • 畳み込み + Self-attentionによって局所的および非局所的特徴相互作用を統一。ベースラインに対してimagenet分類における+1.2% top-1精度、+1.7 box ap、coco検出とセグメンテーションにおける+1.5 mask apを実現したとのこと。
    • 組み合わる系の成果。この手の話も増えていくのだろうと思う。