SESAME: SEe, SAy, segMEnt

  • See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.4]
    この課題を解決するために,LMMのカスケードと共同学習手法を提案する。 得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
    論文  参考訳(メタデータ)   (Wed, 13 Dec 2023 18:58:04 GMT)
  • 微妙に間違ったクエリに対応可能なMLLMの提案、テニスの写真に対して「バスケットボール選手を見つけてと指示」したとき「テニス選手ならいます」と答えて船首部分をセグメンテーションすることが可能。
  • 「detecting the presence of objects (”see”), advising users about non-existent objects or modifying queries accordingly (“say”), and precisely segmenting objects that are actually present in the image (“segment”)」でSESAMEらしい

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です