GLIP(Grounded Language-Image Pre-training): 言語-画像の事前学習モデル

  • Grounded Language-Image Pre-training [107.7]
    本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。 実験では、3Mの人間アノテーションと2400万のウェブクローリング画像テキストペアを含む2700万のグラウンドデータに対してGLIPを事前トレーニングした。 学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。
    論文  参考訳(メタデータ)   (Tue, 7 Dec 2021 17:47:50 GMT)
    • オブジェクト検出とフレーズ接地に対する事前学習モデルの提案。COCOとLVISにおいてゼロショットでも多くの教師有りベースラインを上回り、fine tuning後ではSoTAとのこと。prompt tuning等もできるらしく、コードとモデルも公開予定とのことで期待大。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です