ConvNeXt V2

  • ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.1]
    完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。 この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
    論文  参考訳(メタデータ)   (Mon, 2 Jan 2023 18:59:31 GMT)
  • ConvNeXt: ResNetの近代化 – arXiv最新論文の紹介 (devneko.jp)の次世代バージョン。 Global Response Normalization (GRN)層の追加により性能向上とのことだが、シンプルな処理(に見える)追加で性能が大きく改善しているのが驚き。
  • リポジトリはGitHub – facebookresearch/ConvNeXt-V2: Code release for ConvNeXt V2 model、事前学習済みのモデルもダウンロード可能

VOLO(Vision OutLOoker)

  • VOLO: Vision Outlooker for Visual Recognition [148.1]
    視覚変換器 (ViTs) は ImageNet 分類法において自己注意型モデルの優れたポテンタイアを示す。 本研究では,パフォーマンスギャップを解消し,注意に基づくモデルがCNNよりも優れていることを示す。
    論文  参考訳(メタデータ)   (Thu, 24 Jun 2021 15:46:54 GMT)
  • outlook attentionという構造を取り入れたVOLOという構造を提案、Extra Training Data無しの条件下でImageNet画像分類のSOTAとのこと。
  • コードなどはhttps://github.com/sail-sg/voloから確認可能