- Generalized Decoding for Pixel, Image, and Language [197.9]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。 X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (Wed, 21 Dec 2022 18:58:41 GMT) - 多様なセグメンテーションタスクに対応可能な視覚・言語モデル
- X-Decoder: Generalized Decoding for Pixel, Image and Language (x-decoder-vl.github.io)