- Visual In-Context Prompting [100.9]
本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。 エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。 広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
論文 参考訳(メタデータ) (Wed, 22 Nov 2023 18:59:48 GMT) - Vision領域でのIn-context promptingを実現するモデルの提案。対象タスクはreferring segmentation、generic segmentation tasksとのこと。(テキスト領域で想像されるものとは異なるような・・・きもしなくもない)
- リポジトリはGitHub – UX-Decoder/DINOv