画像処理 – ページ 2 – arXiv最新論文の紹介

ArcAid: Analysis of Archaeological Artifacts using Drawings

ArcAid: Analysis of Archaeological Artifacts using Drawings [16.1]
考古学はコンピュータビジョンの興味深い分野である。ラベル付きデータに不足するだけでなく、高度に混ざったデータに悩まされる。本稿では,考古学的遺物の画像の分類と検索のための,新しい半教師付きモデルを提案する。
論文参考訳（メタデータ） (Thu, 17 Nov 2022 11:57:01 GMT)
考古学への機械学習関連手法の適用。ここでは半教師付き学習を活用し分類モデルを構築している。
この分野では「データ不足」「オブジェクトの劣化や破損」「（手作りによる）オブジェクトの一貫性の欠如」に悩まされるとのこと。作り直してもらうこともできないのでとても大変そうという印象。

Imagic: Text-Based Real Image Editing with Diffusion Models

Imagic: Text-Based Real Image Editing with Diffusion Models [19.1]
我々は、複雑なテキストガイド付きセマンティック編集を1つの実画像に適用できることを実証する。提案手法は1つの入力画像と1つのターゲットテキストのみを必要とする。実際のイメージで動作し、追加の入力を必要としない。
論文参考訳（メタデータ） (Mon, 17 Oct 2022 17:27:32 GMT)
- 画像＋指示で画像編集ができる手法提案。「鳥の画像」＋「羽を広げる」で羽を広げた鳥の画像を生成可能。スタイル変換だけではなく物体の形も編集できているのが凄い。

What’s in a Decade? Transforming Faces Through Tim

What’s in a Decade? Transforming Faces Through Time [70.8]
私たちは1880年代から現在までの10年ごとに1000枚以上の肖像画を含むFaces Through Timeデータセットを組み立てています。われわれは、ある10年間に撮影された肖像画が、他の数十年で撮影されたものである場合、どのように見えるのかを想像しながら、時間をかけて肖像画を再合成する枠組みを提示する。
論文参考訳（メタデータ） (Thu, 13 Oct 2022 00:48:18 GMT)
- 年代ごとの顔写真のデータセットを作成、過去にとられた写真っぽく変換するフレームワークを提案。単純にセピア調になっているのではなく髪型やメイクも影響を受けており非常に面白い。
- リポジトリはFaces Through Time

Visual Prompting

Visual Prompting via Image Inpainting [105.0]
そこで本研究では,NLPにインスパイアされた新しいタスクの入力出力画像例と新しい入力画像の視覚的プロンプトについて検討する。事前学習したモデルに視覚的プロンプトを適用し、様々なダウンストリームイメージ・ツー・イメージタスクで結果を示す。
論文参考訳（メタデータ） (Thu, 1 Sep 2022 17:59:33 GMT)
- 画像処理のために画像のプロンプトに対応するという研究。
- プロンプト部分もマルチモーダルだとテキストと絵でやり方を教えることができてAGIっぽさが増す気がする。
- プロジェクトサイトはVisual Prompting via Image Inpainting (yossigandelsman.github.io)

半教師あり、教師なしなDeep Visual Learningのサーベイ

Semi-Supervised and Unsupervised Deep Visual Learning: A Survey [76.3]
半教師なし学習と教師なし学習は、ラベルなしの視覚データから学ぶための有望なパラダイムを提供する。本稿では, 半教師付き学習(SSL)と非教師付き学習(UL)の先進的な深層学習アルゴリズムについて, 統一的な視点による視覚的認識について概説する。
論文参考訳（メタデータ） (Wed, 24 Aug 2022 04:26:21 GMT)

OmniCity: Omnipotent City マルチレベル・マルチビューデータセット

OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images [72.4]
オムニシティ(OmniCity)は、マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットである。データセットには100万画素以上の注釈付き画像が含まれており、ニューヨーク市の25万画素のジオロケーションから順に収集されている。新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。
論文参考訳（メタデータ） (Mon, 1 Aug 2022 15:19:25 GMT)
- 都市理解のためのデータセット。衛星画像だけでなくアノテーション付きのストリートパノラマ画像を含む。
- プロジェクトサイトはOmniCity (city-super.github.io)

衛星画像を併用した自動車のLocalization

Satellite Image Based Cross-view Localization for Autonomous Vehicle [78.7]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。従来の方法では、このタスクを画像検索、すなわち、車両が捉えた地上画像と衛星画像とのマッチングとしてのみ扱う。本稿では,画像検索の共通知識から外れた,新しいクロスビュー定位手法を提案する。具体的には,(1)地上の視界と頭上の視界の間の幾何学的ギャップを埋めるために計測された3次元点を利用した幾何学的特徴抽出器 (GaFE) ,(2) 姿勢認識特徴抽出を促進するために三重項損失を適用したPose Aware Branch (PAB) ,(3) レバンス・マルカルト (LM) アルゴリズムを用いたRecursive Pose Refine Branch (RPRB) を開発し,実際の車両に対する最初のポーズを反復的に調整する。
論文参考訳（メタデータ） (Wed, 27 Jul 2022 13:16:39 GMT)
- GPSだけでは不十分な用途・場所では位置（＋角度など）の推定（Localization）に画像を用いることは一般的に行われている。Localizationを衛星画像を活用して高精度に行う手法を提案。

GRIT(General Robust Image Task): 頑健性を考慮した画像処理ベンチマーク

GRIT: General Robust Image Task Benchmark [32.6]
本稿では,GRIT(General Robust Image Task)ベンチマークを紹介する。 GRITは、様々な画像予測タスク、概念、データソースにわたるビジョンシステムの性能、堅牢性、キャリブレーションを評価する。ビジョンモデルによって学習されたスキルや概念を徹底的に評価するための統一プラットフォームを提供することにより、GRITが高性能で堅牢な汎用的なビジョンシステムの開発を促進することを期待する。
論文参考訳（メタデータ） (Thu, 28 Apr 2022 17:13:23 GMT)
- 画像自体の摂動や予測対象の分布が変化した状況下などでモデルが動作するかを検証可能なベンチマーク。 Categorization, Localization, VQA, Referring Expression Segmentation, Pose Keypoint, Surface Normalsの7タスクが対象。
- リポジトリはGitHub – allenai/grit_official: Official repository for the General Robust Image Task (GRIT) Benchmark、Submissions — GRIT Ablation Restricted Leaderboard. – Leaderboards by Allen AIにリーダーボードが存在。

LUV(Labels from UltraViolet): 紫外線を用いたラベリング

All You Need is LUV: Unsupervised Collection of Labeled Images using Invisible UV Fluorescent Indicators [36.5]
Labels from UltraViolet (LUV)は、人間のラベル付けなしで実際の操作環境で高速にラベル付けされたデータ収集を可能にする新しいフレームワークである。 LUVは透明な紫外線塗料とプログラマブルな紫外線LEDを使って、標準的な照明でシーンのペア画像を集めている。 LUVは、未塗布試験画像上の人間のアノテーションと整合したラベルを提供する。
論文参考訳（メタデータ） (Wed, 9 Mar 2022 08:03:07 GMT)
- 通常のアノテーションは「可視光で撮影した画像」を見ながら人がラベリングやセグメンテーションを実施する。そのプロセスは大変なので、認識対象に紫外線蛍光塗料を塗り「②紫外線LEDを使って撮影した画像」を使えばアノテーション相当の結果が得られるという報告。All You Needかは疑問だがデータを作りに行ける場合は有効な方法だと思う。
  - シミュレーション環境でデータを作る手法もよくつかわれるがリアルな環境でうまくやるアイデアはなるほどと思う。
- プロジェクトサイトはAll You Need is LUV (google.com)

CAISE(Conversational Agent for Image Search and Editing ): 対話型画像検索・編集データセット

CAISE: Conversational Agent for Image Search and Editing [109.6]
画像検索・編集のための自動会話エージェント(CAISE)のデータセットを提案する。私たちの知る限り、これは対話型画像検索とアノテーションの編集を提供する最初のデータセットです。アシスタントアノテーションがツールで実行する機能は実行可能なコマンドとして記録される。
論文参考訳（メタデータ） (Thu, 24 Feb 2022 00:55:52 GMT)
- 画像検索、編集を対話で行うモデル構築のためのデータセットを提案。ベースラインモデルも構築しているが、人との差は大きい。
  - Adobe Researchの論文で今後このようなインタフェースに期待大。
- リポジトリはGitHub – hyounghk/CAISE: Code and dataset for AAAI 2022 paper “CAISE: Conversational Agent for Image Search and Editing” Hyounghun Kim, Doo Soon Kim, Seunghyun Yoon, Franck Dernoncourt, Trung Bui, and Mohit Bansal

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31