Single-Point Scene Text Spotting 

  • SPTS v2: Single-Point Scene Text Spotting [147.0]
    トレーニングシーンのテキストスポッティングモデルは、非常に低コストの単一点アノテーションで実現できることを示す。 既存のベンチマークデータセットの実験では、SPTS v2が以前の最先端のシングルポイントテキストスポッターより優れていることが示されている。
    論文  参考訳(メタデータ)   (Wed, 4 Jan 2023 14:20:14 GMT)
  • 画像からのシーン理解(OCR)では通常バウンディングボックスを用いたアノテーションが行われるが、1点の情報(テキストスポッティング)で十分な性能が出せるとの指摘。アノテーションコストが劇的に下がる。
  • リポジトリはGitHub – shannanyinxiang/SPTS: Official implementation of SPTS: Single-Point Text Spotting

ConvNeXt V2

  • ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.1]
    完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。 この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
    論文  参考訳(メタデータ)   (Mon, 2 Jan 2023 18:59:31 GMT)
  • ConvNeXt: ResNetの近代化 – arXiv最新論文の紹介 (devneko.jp)の次世代バージョン。 Global Response Normalization (GRN)層の追加により性能向上とのことだが、シンプルな処理(に見える)追加で性能が大きく改善しているのが驚き。
  • リポジトリはGitHub – facebookresearch/ConvNeXt-V2: Code release for ConvNeXt V2 model、事前学習済みのモデルもダウンロード可能

YOLOv6、YOLOv7

  • YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications [16.0]
    YOLOv6-Nは、NVIDIA Tesla T4 GPU上で1234 FPSのスループットでCOCOデータセットで35.9%APに達する。 YOLOv6-S は 495 FPS で 43.5% AP を攻撃し、他の主流検出器を同じ規模で上回っている。 YOLOv6-M/Lは、同様の推論速度を持つ他の検出器よりも精度(49.5%/52.3%)が高い。
    論文  参考訳(メタデータ)   (Wed, 7 Sep 2022 07:47:58 GMT)

YOLOv7は↓

リモートセンシングにおけるVision Transformer

Computer Visionにおけるアテンションのサーベイ

  • Attention Mechanisms in Computer Vision: A Survey [75.6]
    本稿では,コンピュータビジョンにおける様々な注意機構について概観する。 チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。 我々は注意機構研究の今後の方向性を提案する。
    論文  参考訳(メタデータ)   (Mon, 15 Nov 2021 09:18:40 GMT)

Visual Deep MLPのサーベイ

  • Are we ready for a new paradigm shift? A Survey on Visual Deep MLP [33.0]
    初めて出現したニューラルネットワーク構造である多層パーセプトロン(MLP)は大きなヒットとなった。 ハードウェア・コンピューティングのパワーとデータセットのサイズに制約され、かつては何十年にもわたって沈んだ。 我々は、手動の特徴抽出から、局所受容野を持つCNNへのパラダイムシフト、さらにグローバル受容野を持つTransformへのパラダイムシフトを目撃した。
    論文  参考訳(メタデータ)   (Sun, 7 Nov 2021 12:02:00 GMT)
    • CNN、Transformer(ViTなど)、MLP(MLP-Mixerなど)と群雄割拠な感のある画像処理に対するMLP中心のサーベイ。

CLEVER(Curious Layperson-to-Expert Visual Entity Recognition): エキスパートのアノテーションを使わない画像認識

  • The Curious Layperson: Fine-Grained Image Recognition without Expert Labels [90.9]
    我々は、専門家のアノテーションを使わずに、画像認識する新しい問題を考える。 非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。 次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 5 Nov 2021 17:58:37 GMT)
    • 百科事典のようなデータがある状況下でその記載を読み解いて画像分類につなげる問題を扱った論文。専門家によるラベルは存在しない。普通の人がWikipediaを見ながら勉強するような状況を想定しているようで、面白い問題設定。