- WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.6]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。 画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。 具体的には、画像とキャプションの相関が弱い複数のWebページから約6億のデータを収集し、他の5000万の強い関連画像テキストペアを高品質なグラフィックWebサイトから収集する。 また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文 参考訳(メタデータ) 参考訳(全文) (Tue, 22 Mar 2022 06:12:20 GMT)- テキスト・画像の大規模データセット。研究目的にのみ利用可能。
- プロジェクトサイトはresource (wudaoai.cn)