Visual In-Context Prompting – arXiv最新論文の紹介

Visual In-Context Prompting [100.9]
本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
論文参考訳（メタデータ） (Wed, 22 Nov 2023 18:59:48 GMT)
Vision領域でのIn-context promptingを実現するモデルの提案。対象タスクはreferring segmentation、generic segmentation tasksとのこと。（テキスト領域で想像されるものとは異なるような・・・きもしなくもない）
リポジトリはGitHub – UX-Decoder/DINOv

コメントを残す

コメントを残す コメントをキャンセル