OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images [72.4] オムニシティ(OmniCity)は、マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットである。 データセットには100万画素以上の注釈付き画像が含まれており、ニューヨーク市の25万画素のジオロケーションから順に収集されている。 新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。 論文参考訳(メタデータ) (Mon, 1 Aug 2022 15:19:25 GMT)
All You Need is LUV: Unsupervised Collection of Labeled Images using Invisible UV Fluorescent Indicators [36.5] Labels from UltraViolet (LUV)は、人間のラベル付けなしで実際の操作環境で高速にラベル付けされたデータ収集を可能にする新しいフレームワークである。 LUVは透明な紫外線塗料とプログラマブルな紫外線LEDを使って、標準的な照明でシーンのペア画像を集めている。 LUVは、未塗布試験画像上の人間のアノテーションと整合したラベルを提供する。 論文参考訳(メタデータ) (Wed, 9 Mar 2022 08:03:07 GMT)
通常のアノテーションは「可視光で撮影した画像」を見ながら人がラベリングやセグメンテーションを実施する。そのプロセスは大変なので、認識対象に紫外線蛍光塗料を塗り「②紫外線LEDを使って撮影した画像」を使えばアノテーション相当の結果が得られるという報告。All You Needかは疑問だがデータを作りに行ける場合は有効な方法だと思う。
A ConvNet for the 2020s [94.9] ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。 これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。 本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。 論文参考訳(メタデータ)参考訳(全文) (Mon, 10 Jan 2022 18:59:10 GMT)
All You Need is RAW: Defending Against Adversarial Attacks with Camera Image Pipelines [31.0] 画像と画像のマッピングのためのモデルに依存しない対角防御法を提案する。 この方法は、入力されたRGB画像をRAW空間にマッピングし、学習したカメラ画像信号処理パイプラインを用いて出力RGBにマッピングする。 その結果、余分な再トレーニングを伴わずに未確認タスクに一般化する。 論文参考訳(メタデータ)参考訳(全文) (Thu, 16 Dec 2021 21:54:26 GMT)
Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text [93.1] 我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。 我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。 実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。 論文参考訳(メタデータ) (Tue, 14 Dec 2021 00:20:55 GMT)
Making a Bird AI Expert Work for You and Me [46.6] 人間がAIから学ぶためのトランスファー可能な知識を構成するものは何か? 本稿では,知識を専門家排他的な高度に識別可能な視覚領域として表現することを提案する。 15,000件の治験を総合的に調査した結果, 飛散する鳥の専門知識を継続的に改善できることがわかった。 論文参考訳(メタデータ)参考訳(全文) (Mon, 6 Dec 2021 02:47:21 GMT)