- Large-scale Bilingual Language-Image Contrastive Learning [17.2]
我々は11億枚の画像テキストペア(韓国語7億、英語4.7億)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。 我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。 実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文 参考訳(メタデータ) (Mon, 28 Mar 2022 03:02:03 GMT)- 大規模なバイリンガル・マルチモーダルモデル。
- 英語とのバイリンガルモデルは日本語に対しても重要だと思っていて検証結果が面白かった。「bilingual KELIP can capture different characteristics of each cultural vision information for the same meaning of words but different languages」は非常に面白い性質。
- KELIP = Korean and English bilingual contrastive Language-Image Pre-training?
- リポジトリはGitHub – navervision/KELIP: Official PyTorch implementation of “Large-scale Bilingual Language-Image Contrastive Learning” (ICLRW 2022) デモはKELIP – a Hugging Face Space by navervision