Set-of-Mark Prompting Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V [103.7]大規模マルチモーダルモデルの視覚的グラウンド化能力を解き放つために,新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。 我々は、SAMのような市販のインタラクティブセグメンテーションモデルを用いて、画像を異なるレベルの粒度の領域に分割し、これらの領域を一連のマークでオーバーレイする。 マークされたイメージを入力として使用することで、GPT-4Vは視覚的な接地を必要とする質問に答えることができる。論文 参考訳(メタデータ) (Tue, 17 Oct 2023 17:51:31 GMT) GPT-4Vに対するプロンプトテクニック、Set-of-Markの提案。速度勝負みたいなところもあるのだろうけど、論文出るの速すぎ・・・ 「We show that simply overlaying a number of symbolic marks on a set of regions of an input image can unleash the visual grounding ability of GPT-4V.」とのこと。人間でも画像にガイドを入れるとタスクをやりやすくなるのでアイデアとしてはそうだろうと思うものの、広範な実験・検証はとても参考になる。 プロジェクトサイトはSoM-GPT4V