- ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.1]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。 この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (Mon, 2 Jan 2023 18:59:31 GMT) - ConvNeXt: ResNetの近代化 – arXiv最新論文の紹介 (devneko.jp)の次世代バージョン。 Global Response Normalization (GRN)層の追加により性能向上とのことだが、シンプルな処理(に見える)追加で性能が大きく改善しているのが驚き。
- リポジトリはGitHub – facebookresearch/ConvNeXt-V2: Code release for ConvNeXt V2 model、事前学習済みのモデルもダウンロード可能
タグ: 画像分類
VOLO(Vision OutLOoker)
- VOLO: Vision Outlooker for Visual Recognition [148.1]
視覚変換器 (ViTs) は ImageNet 分類法において自己注意型モデルの優れたポテンタイアを示す。 本研究では,パフォーマンスギャップを解消し,注意に基づくモデルがCNNよりも優れていることを示す。
論文 参考訳(メタデータ) (Thu, 24 Jun 2021 15:46:54 GMT) - outlook attentionという構造を取り入れたVOLOという構造を提案、Extra Training Data無しの条件下でImageNet画像分類のSOTAとのこと。
- コードなどはhttps://github.com/sail-sg/voloから確認可能