See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.4] この課題を解決するために,LMMのカスケードと共同学習手法を提案する。 得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。 論文参考訳(メタデータ) (Wed, 13 Dec 2023 18:58:04 GMT)
「detecting the presence of objects (”see”), advising users about non-existent objects or modifying queries accordingly (“say”), and precisely segmenting objects that are actually present in the image (“segment”)」でSESAMEらしい