画像処理 – ページ 4 – arXiv最新論文の紹介

INTERN: 強力なGeneral Vision Model

INTERN: A New Learning Paradigm Towards General Vision [117.3]
我々はInterNという新しい学習パラダイムを開発した。複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
論文参考訳（メタデータ） (Tue, 16 Nov 2021 18:42:50 GMT)
- 大規模LMのようなGeneral Vision Modelを構築することで少数の学習データで優れた性能を発揮するモデルを作れるとの報告。GV-D:General Vision Dataとして100億サンプル、119Kコンセプトのデータセット、 GV-A: General Vision Architecture としてTransformer+Convolutionalな構造、GV-B: General Vision Benchmark として26のタスクを用いて段階的な学習を行うことでCLIPを超える強力なゼネラリストモデルを構築したとのこと。
- 実装等公開予定とのことで詳細はそこで確認したい。

A Survey of Visual Transformers [30.1]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文参考訳（メタデータ） (Thu, 11 Nov 2021 07:56:04 GMT)
- 画像分野におけるTransformerのサーベイ。
- 同様のサーベイとしては下記がある（本論文でもイントロダクションで触れられている）
  - Transformers in Vision: A Survey (fugumt.com)
  - A Survey on Visual Transformer (fugumt.com)

Masked Autoencoders Are Scalable Vision Learners [61.0]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文参考訳（メタデータ）参考訳（全文） (Thu, 11 Nov 2021 18:46:40 GMT)
- Masked Autoencoderという自然言語処理を彷彿とさせる学習法の提案。ImageNet-1KでSoTAとのこと。

MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer [24.5]
モバイルデバイス用の軽量ビジョントランスフォーマであるMobileViTを紹介する。以上の結果から,MobileViT は CNN および ViT ベースのネットワークを,タスクやデータセット間で大幅に上回っていることがわかった。
論文参考訳（メタデータ） (Tue, 5 Oct 2021 17:07:53 GMT)
- パラメータ数が同等のMobileNetv3(CNN系)、DeIT(ViT系)を上回る性能を出せる軽量なVision Transformerの報告。結局、ViTs are slower than CNNsって・・・とは思わなくはないが、Transformerの利用は広まっているのでハードウェア演算による支援が普通になる未来を期待。
  - この論文はAppleからだしTransformer向けの計算支援をiPhoneに組み込んでほしい。（そしてFuguMTも高速化させたい）

Image Fusion Transformer [75.7]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。我々は,画像融合トランスフォーマー (IFT) を提案する。
論文参考訳（メタデータ） (Mon, 19 Jul 2021 16:42:49 GMT)
- 複数の異なるデータソースからの画像を融合（イメージフュージョン）し情報量の多い一枚の画像にするタスクにおいて、Transformerを使い優れた性能が出せたとの報告。最近よく話題になる局所的な情報と長距離で関係する情報を組み合わせられる構造となっている。

A Survey on Bias in Visual Datasets [17.8]
コンピュータビジョン(CV)は、いくつかのタスクにおいて人間よりも優れた成果を上げている。 CVシステムは、供給されるデータに大きく依存し、そのようなデータ内のバイアスを学習し、増幅することができる。本研究では,視覚データセットの収集中に異なる種類のバイアスを検出できるチェックリストを提案する。
論文参考訳（メタデータ） (Fri, 16 Jul 2021 14:16:52 GMT)
- 画像を対象にどのようなバイアスがありうるかを調査したサーベイ論文。色々なステップで入りうる多種のバイアスが紹介されており画像に限らず参考になる。24ページのチェックリストは簡潔にまとまっている。どれも重要な問いだと思う。

Long-Short Transformer: Efficient Transformers for Language and Vision [97.3]
Long-Short Transformer, Transformer-LSは、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文参考訳（メタデータ） (Mon, 5 Jul 2021 18:00:14 GMT)
- long rangeな相関、局所的な特徴の組み合わせによって性能を向上させたtransformer。言語（LRA benchmark）ではReformer, Linformer, Performer, Nyströmformerなど効率性を狙ったtransformer型モデルより高性能、言語モデル構築ではメモリ使用量が少なく高速に学習でき優れた性能。画像（imagenet）ではCvTやViLよりも本件機構を組み込んだものの方が高性能とのこと。
- The models and source code will be released soon.とのことでコード等も公開されるよう。