OmniCity: Omnipotent City マルチレベル・マルチビューデータセット

  • OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images [72.4]
    オムニシティ(OmniCity)は、マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットである。 データセットには100万画素以上の注釈付き画像が含まれており、ニューヨーク市の25万画素のジオロケーションから順に収集されている。 新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。
    論文  参考訳(メタデータ)   (Mon, 1 Aug 2022 15:19:25 GMT)
    • 都市理解のためのデータセット。衛星画像だけでなくアノテーション付きのストリートパノラマ画像を含む。
    • プロジェクトサイトはOmniCity (city-super.github.io)

衛星画像を併用した自動車のLocalization

  • Satellite Image Based Cross-view Localization for Autonomous Vehicle [78.7]
    本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。 従来の方法では、このタスクを画像検索、すなわち、車両が捉えた地上画像と衛星画像とのマッチングとしてのみ扱う。本稿では,画像検索の共通知識から外れた,新しいクロスビュー定位手法を提案する。 具体的には,(1)地上の視界と頭上の視界の間の幾何学的ギャップを埋めるために計測された3次元点を利用した幾何学的特徴抽出器 (GaFE) ,(2) 姿勢認識特徴抽出を促進するために三重項損失を適用したPose Aware Branch (PAB) ,(3) レバンス・マルカルト (LM) アルゴリズムを用いたRecursive Pose Refine Branch (RPRB) を開発し,実際の車両に対する最初のポーズを反復的に調整する。 
    論文  参考訳(メタデータ)   (Wed, 27 Jul 2022 13:16:39 GMT)
    • GPSだけでは不十分な用途・場所では位置(+角度など)の推定(Localization)に画像を用いることは一般的に行われている。Localizationを衛星画像を活用して高精度に行う手法を提案。

GRIT(General Robust Image Task): 頑健性を考慮した画像処理ベンチマーク

  • GRIT: General Robust Image Task Benchmark [32.6]
    本稿では,GRIT(General Robust Image Task)ベンチマークを紹介する。 GRITは、様々な画像予測タスク、概念、データソースにわたるビジョンシステムの性能、堅牢性、キャリブレーションを評価する。 ビジョンモデルによって学習されたスキルや概念を徹底的に評価するための統一プラットフォームを提供することにより、GRITが高性能で堅牢な汎用的なビジョンシステムの開発を促進することを期待する。
    論文  参考訳(メタデータ)   (Thu, 28 Apr 2022 17:13:23 GMT)

LUV(Labels from UltraViolet): 紫外線を用いたラベリング

  • All You Need is LUV: Unsupervised Collection of Labeled Images using Invisible UV Fluorescent Indicators [36.5]
    Labels from UltraViolet (LUV)は、人間のラベル付けなしで実際の操作環境で高速にラベル付けされたデータ収集を可能にする新しいフレームワークである。 LUVは透明な紫外線塗料とプログラマブルな紫外線LEDを使って、標準的な照明でシーンのペア画像を集めている。 LUVは、未塗布試験画像上の人間のアノテーションと整合したラベルを提供する。
    論文  参考訳(メタデータ)   (Wed, 9 Mar 2022 08:03:07 GMT)
    • 通常のアノテーションは「可視光で撮影した画像」を見ながら人がラベリングやセグメンテーションを実施する。そのプロセスは大変なので、認識対象に紫外線蛍光塗料を塗り「②紫外線LEDを使って撮影した画像」を使えばアノテーション相当の結果が得られるという報告。All You Needかは疑問だがデータを作りに行ける場合は有効な方法だと思う。
      • シミュレーション環境でデータを作る手法もよくつかわれるがリアルな環境でうまくやるアイデアはなるほどと思う。
    • プロジェクトサイトはAll You Need is LUV (google.com)

CAISE(Conversational Agent for Image Search and Editing ): 対話型画像検索・編集データセット

ConvNeXt: ResNetの近代化

  • A ConvNet for the 2020s [94.9]
    ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。 これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。 本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 10 Jan 2022 18:59:10 GMT)

RAWイメージを介した敵対的攻撃の防御

  • All You Need is RAW: Defending Against Adversarial Attacks with Camera Image Pipelines [31.0]
    画像と画像のマッピングのためのモデルに依存しない対角防御法を提案する。 この方法は、入力されたRGB画像をRAW空間にマッピングし、学習したカメラ画像信号処理パイプラインを用いて出力RGBにマッピングする。 その結果、余分な再トレーニングを伴わずに未確認タスクに一般化する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 16 Dec 2021 21:54:26 GMT)
    • RAWイメージを介することでAdversarial Attackからの防御を行う手法の提案。自然なやり方に思える。

ViT-BERT: 言語と画像の統一的基礎モデル

  • Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text [93.1]
    我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。 我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。 実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
    論文  参考訳(メタデータ)   (Tue, 14 Dec 2021 00:20:55 GMT)
    • 画像・言語の両方を取り扱える事前学習モデル構築手法の提案。トークン化と出力部分は個別だが主要な部分は共通という構造。学習に用いる画像とテキストは対となるデータではない。画像のみのタスクCIFAR-10/100・ImageNet、自然言語のみのタスクGLUE双方で優れた結果。

人間が学ぶためのAI

効率的な顔認識のサーベイ

  • Detect Faces Efficiently: A Survey and Evaluations [13.1]
    顔認識、表情認識、顔追跡、頭部推定を含む多くの応用は、画像中の顔の位置と大きさの両方が知られていると仮定する。 ディープラーニング技術は、かなりの計算量の増加と共に、対面検出に驚くべきブレークスルーをもたらした。 本稿では, 代表的な深層学習手法を紹介し, 精度と効率性の観点から, 深く, 徹底的な分析を行う。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 3 Dec 2021 08:39:40 GMT)
    • Deep Learningの応用先としても有力な顔認識に関するサーベイ。主要なモデルを振り返るうえで非常に参考になる。