GLIP(Grounded Language-Image Pre-training): 言語-画像の事前学習モデル

Grounded Language-Image Pre-training [107.7]
本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。実験では、3Mの人間アノテーションと2400万のウェブクローリング画像テキストペアを含む2700万のグラウンドデータに対してGLIPを事前トレーニングした。学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。
論文参考訳（メタデータ） (Tue, 7 Dec 2021 17:47:50 GMT)
- オブジェクト検出とフレーズ接地に対する事前学習モデルの提案。COCOとLVISにおいてゼロショットでも多くの教師有りベースラインを上回り、fine tuning後ではSoTAとのこと。prompt tuning等もできるらしく、コードとモデルも公開予定とのことで期待大。
  - ただ、COCOはFlorence-CoSwin-Hの方が上に見える
- リポジトリはGitHub – microsoft/GLIP: Grounded Language-Image Pre-training

コメントを残す

コメントを残す コメントをキャンセル