convolution – arXiv最新論文の紹介

ConvNeXt: ResNetの近代化

A ConvNet for the 2020s [94.9]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文参考訳（メタデータ）参考訳（全文） (Mon, 10 Jan 2022 18:59:10 GMT)
- ResNetに最近の知見を入れ込んでいくことでどのくらい性能が上がるか確認した報告、最終的にSwin Transformersを上回る性能を達成できたとのこと。非常に面白い結果。
- リポジトリはGitHub – facebookresearch/ConvNeXt: Code release for ConvNeXt model

X-volution: Convolution + Self-attention

X-volution: On the unification of convolution and self-attention [52.8]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。提案したX-volutionは、非常に競争力のある視覚的理解の改善を実現する。
論文参考訳（メタデータ） (Fri, 4 Jun 2021 04:32:02 GMT)
- 畳み込み + Self-attentionによって局所的および非局所的特徴相互作用を統一。ベースラインに対してimagenet分類における+1.2% top-1精度、+1.7 box ap、coco検出とセグメンテーションにおける+1.5 mask apを実現したとのこと。
- 組み合わる系の成果。この手の話も増えていくのだろうと思う。