- DataComp: In search of the next generation of multimodal datasets [130.6]
我々は、トレーニングコードを修正し、研究者が新しいトレーニングセットを提案して革新するベンチマークであるDataCompを紹介する。 Common Crawlの12.8Bイメージテキストペアの候補プールを中心にしたデータセット実験用のテストベッドを提供する。 ベンチマーク参加者は、新しいフィルタリングテクニックを設計し、新しいデータソースをキュレートし、標準化されたCLIPトレーニングコードを実行し、38の下流テストセットでテストすることで、新しいデータセットを評価します。
論文 参考訳(メタデータ) (Thu, 27 Apr 2023 11:37:18 GMT) - 良いマルチモーダルデータセットを作ることを目的としたベンチマーク(コンペティション?)データセットのフィルタリングは重要で様々なテクニックが開発・公開されることに期待大。
- プロジェクトサイトはDataComp