- Multimodal Referring Segmentation: A Survey [93.2]
マルチモーダル参照セグメンテーション(Multimodal reference segmentation)は、テキストやオーディオフォーマットでの参照表現に基づいて、画像、ビデオ、および3Dシーンなどのターゲットオブジェクトを視覚シーンに分割することを目的としている。 過去10年間で、畳み込みニューラルネットワーク、トランスフォーマー、および大規模言語モデルの進歩によって、マルチモーダルコミュニティにおいて大きな注目を集めてきた。
論文 参考訳(メタデータ) (Fri, 01 Aug 2025 02:14:00 GMT) - Multimodal Referring Segmentationのサーベイ
- リポジトリとしてhenghuiding/Awesome-Multimodal-Referring-Segmentation: Multimodal Referring Segmentationに論文等がまとまっている。