General Vision Model – arXiv最新論文の紹介

Autoregressive Models in Vision: A Survey

Autoregressive Models in Vision: A Survey [119.2]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文参考訳（メタデータ） (Fri, 08 Nov 2024 17:15:12 GMT)
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective – arXiv最新論文の紹介でも取り上げた通りVisionにも応用が進むAutoregressiveモデルのサーベイ。
リポジトリはGitHub – ChaofanTao/Autoregressive-Models-in-Vision-Survey: The paper collections for the autoregressive models in vision.

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks [139.4]
Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
論文参考訳（メタデータ） (Mon, 30 Oct 2023 18:23:58 GMT)
事前学習済みのバックボーンを様々なタスクで比較した論文。「Across the suite of comprehensive evaluations in BoB, spanning tasks, datasets, and settings (including ID and OOD), supervised ConvNeXt-Base, supervised SwinV2-Base trained using ImageNet-21k, and CLIP ViT-Base come out on top.」とのこと。端的にまとまっているのがありがたい。
リポジトリはGitHub – hsouri/Battle-of-the-Backbones

INTERN: A New Learning Paradigm Towards General Vision [117.3]
我々はInterNという新しい学習パラダイムを開発した。複数の段階の複数のソースからの監視信号を用いて学習することにより、トレーニング対象のモデルは強力な一般化性を生み出す。ほとんどの場合、ターゲットドメインのトレーニングデータの10%しか適応していないモデルが、完全なデータセットでトレーニングされたトレーニングデータよりも優れています。
論文参考訳（メタデータ） (Tue, 16 Nov 2021 18:42:50 GMT)
- 大規模LMのようなGeneral Vision Modelを構築することで少数の学習データで優れた性能を発揮するモデルを作れるとの報告。GV-D:General Vision Dataとして100億サンプル、119Kコンセプトのデータセット、 GV-A: General Vision Architecture としてTransformer+Convolutionalな構造、GV-B: General Vision Benchmark として26のタスクを用いて段階的な学習を行うことでCLIPを超える強力なゼネラリストモデルを構築したとのこと。
- 実装等公開予定とのことで詳細はそこで確認したい。