Multimodal Referring Segmentation: A Survey 

  • Multimodal Referring Segmentation: A Survey [93.2]
    マルチモーダル参照セグメンテーション(Multimodal reference segmentation)は、テキストやオーディオフォーマットでの参照表現に基づいて、画像、ビデオ、および3Dシーンなどのターゲットオブジェクトを視覚シーンに分割することを目的としている。 過去10年間で、畳み込みニューラルネットワーク、トランスフォーマー、および大規模言語モデルの進歩によって、マルチモーダルコミュニティにおいて大きな注目を集めてきた。
    論文  参考訳(メタデータ)   (Fri, 01 Aug 2025 02:14:00 GMT)
  • Multimodal Referring Segmentationのサーベイ
  • リポジトリとしてhenghuiding/Awesome-Multimodal-Referring-Segmentation: Multimodal Referring Segmentationに論文等がまとまっている。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です