SESAME: SEe, SAy, segMEnt – arXiv最新論文の紹介

See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.4]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文参考訳（メタデータ） (Wed, 13 Dec 2023 18:58:04 GMT)
微妙に間違ったクエリに対応可能なMLLMの提案、テニスの写真に対して「バスケットボール選手を見つけてと指示」したとき「テニス選手ならいます」と答えて船首部分をセグメンテーションすることが可能。
「detecting the presence of objects (”see”), advising users about non-existent objects or modifying queries accordingly (“say”), and precisely segmenting objects that are actually present in the image (“segment”)」でSESAMEらしい

コメントを残す

コメントを残す コメントをキャンセル