DataComp

  • DataComp: In search of the next generation of multimodal datasets [130.6]
    我々は、トレーニングコードを修正し、研究者が新しいトレーニングセットを提案して革新するベンチマークであるDataCompを紹介する。 Common Crawlの12.8Bイメージテキストペアの候補プールを中心にしたデータセット実験用のテストベッドを提供する。 ベンチマーク参加者は、新しいフィルタリングテクニックを設計し、新しいデータソースをキュレートし、標準化されたCLIPトレーニングコードを実行し、38の下流テストセットでテストすることで、新しいデータセットを評価します。
    論文  参考訳(メタデータ)   (Thu, 27 Apr 2023 11:37:18 GMT)
  • 良いマルチモーダルデータセットを作ることを目的としたベンチマーク(コンペティション?)データセットのフィルタリングは重要で様々なテクニックが開発・公開されることに期待大。
  • プロジェクトサイトはDataComp

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です