WuDaoMM: 大規模な画像・テキストのマルチモーダルデータセット

  • WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.6]
    我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。 画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。 具体的には、画像とキャプションの相関が弱い複数のWebページから約6億のデータを収集し、他の5000万の強い関連画像テキストペアを高品質なグラフィックWebサイトから収集する。 また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 22 Mar 2022 06:12:20 GMT)
    • テキスト・画像の大規模データセット。研究目的にのみ利用可能。
    • プロジェクトサイトはresource (wudaoai.cn)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です