画像認識 – arXiv最新論文の紹介

Single-Point Scene Text Spotting

SPTS v2: Single-Point Scene Text Spotting [147.0]
トレーニングシーンのテキストスポッティングモデルは、非常に低コストの単一点アノテーションで実現できることを示す。既存のベンチマークデータセットの実験では、SPTS v2が以前の最先端のシングルポイントテキストスポッターより優れていることが示されている。
論文参考訳（メタデータ） (Wed, 4 Jan 2023 14:20:14 GMT)
画像からのシーン理解（OCR)では通常バウンディングボックスを用いたアノテーションが行われるが、1点の情報（テキストスポッティング）で十分な性能が出せるとの指摘。アノテーションコストが劇的に下がる。
リポジトリはGitHub – shannanyinxiang/SPTS: Official implementation of SPTS: Single-Point Text Spotting

ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.1]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文参考訳（メタデータ） (Mon, 2 Jan 2023 18:59:31 GMT)
ConvNeXt: ResNetの近代化 – arXiv最新論文の紹介 (devneko.jp)の次世代バージョン。 Global Response Normalization (GRN)層の追加により性能向上とのことだが、シンプルな処理（に見える）追加で性能が大きく改善しているのが驚き。
リポジトリはGitHub – facebookresearch/ConvNeXt-V2: Code release for ConvNeXt V2 model、事前学習済みのモデルもダウンロード可能

YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications [16.0]
YOLOv6-Nは、NVIDIA Tesla T4 GPU上で1234 FPSのスループットでCOCOデータセットで35.9%APに達する。 YOLOv6-S は 495 FPS で 43.5% AP を攻撃し、他の主流検出器を同じ規模で上回っている。 YOLOv6-M/Lは、同様の推論速度を持つ他の検出器よりも精度(49.5%/52.3%)が高い。
論文参考訳（メタデータ） (Wed, 7 Sep 2022 07:47:58 GMT)
- YOLOv6の論文。オリジナルのYOLO作者によるものではなく、作者の許可を得て命名しているとのこと。比較が難しいがYOLOv7を含む他の手法より優れている状況も多そう。
- リポジトリはmeituan/YOLOv6: YOLOv6: a single-stage object detection framework dedicated to industrial applications. (github.com)

YOLOv7は↓

YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors [14.2]
YOLOv7は5FPSから160FPSまでの速度と精度で、既知の全ての物体検出器を上回っている。 YOLOv7は、GPU V100上で30FPS以上の実時間オブジェクト検出器の中で、最高精度の56.8%のAPを持つ。 YOLOv7は、他のデータセットやトレーニング済みの重みを使わずに、スクラッチからMSデータセットにのみトレーニングします。
論文参考訳（メタデータ） (Wed, 6 Jul 2022 14:01:58 GMT)
- リポジトリはWongKinYiu/yolov7: Implementation of paper – YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors (github.com)

Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model [98.0]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文参考訳（メタデータ） (Wed, 10 Aug 2022 09:31:40 GMT)
- Vitの活用事例であり、比較対象が多く参考になる。DOTA Benchmark (Object Detection In Aerial Images) | Papers With Codeなど多くのデータセットでSoTA。
- リポジトリはGitHub – ViTAE-Transformer/Remote-Sensing-RVSA: The official repo for the paper “Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model”

Attention Mechanisms in Computer Vision: A Survey [75.6]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。我々は注意機構研究の今後の方向性を提案する。
論文参考訳（メタデータ） (Mon, 15 Nov 2021 09:18:40 GMT)
- 画像関連処理におけるアテンションのサーベイ。すごい情報量で様々な取り組みが行われてきたことが分かる。
- リポジトリはhttps://github.com/MenghaoGuo/Awesome-Vision-Attentions

Are we ready for a new paradigm shift? A Survey on Visual Deep MLP [33.0]
初めて出現したニューラルネットワーク構造である多層パーセプトロン(MLP)は大きなヒットとなった。ハードウェア・コンピューティングのパワーとデータセットのサイズに制約され、かつては何十年にもわたって沈んだ。我々は、手動の特徴抽出から、局所受容野を持つCNNへのパラダイムシフト、さらにグローバル受容野を持つTransformへのパラダイムシフトを目撃した。
論文参考訳（メタデータ） (Sun, 7 Nov 2021 12:02:00 GMT)
- CNN、Transformer（ViTなど）、MLP（MLP-Mixerなど）と群雄割拠な感のある画像処理に対するMLP中心のサーベイ。

The Curious Layperson: Fine-Grained Image Recognition without Expert Labels [90.9]
我々は、専門家のアノテーションを使わずに、画像認識する新しい問題を考える。非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 5 Nov 2021 17:58:37 GMT)
- 百科事典のようなデータがある状況下でその記載を読み解いて画像分類につなげる問題を扱った論文。専門家によるラベルは存在しない。普通の人がWikipediaを見ながら勉強するような状況を想定しているようで、面白い問題設定。
- リポジトリはhttps://github.com/subhc/clever