- GLIPv2: Unifying Localization and Vision-Language Understanding [161.2]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。 GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。 一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (Sun, 12 Jun 2022 20:31:28 GMT)- GLIP(Grounded Language-Image Pre-training): 言語-画像の事前学習モデル – arXiv最新論文の紹介 (devneko.jp)のver2
- GLIP-Lよりも高性能化しており、Flickr30KでSoTAなど高いパフォーマンス。
- GitHub – microsoft/GLIP: Grounded Language-Image Pre-training