LSeg: 言語駆動型のセマンティックセグメンテーション

Language-driven Semantic Segmentation [88.2]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文参考訳（メタデータ） (Mon, 10 Jan 2022 18:59:10 GMT)
- BackboneとなるVisionのモデル（ViT or ResNet）にCLIPを組み合わせることでゼロショットでの（ラベルを任意に設定可能な）セマンティックセグメンテーションを実現。マルチモーダルな処理に可能性と未来を感じる。
- リポジトリはGitHub – isl-org/lang-seg: Language-Driven Semantic Segmentation

コメントを残す

コメントを残す コメントをキャンセル