Effective pruning of web-scale datasets based on complexity of concept clusters 

  • Effective pruning of web-scale datasets based on complexity of concept clusters [48.1]
    本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。 高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減し、より高いパフォーマンスをもたらす可能性があることに気付きました。 DataComp Mediumのベンチマークでは,38のタスクに対して,最先端のImageNetゼロショット精度と競合平均ゼロショット精度を実現している。
    論文  参考訳(メタデータ)   (Tue, 9 Jan 2024 14:32:24 GMT)
  • データセットの効果的なフィルタリング方法の提案。LAION datasetで検証。
  • deduplication, CLIP-score filtering, Density-Based-Pruningのパイプラインでembeddingを効果的に使うアプローチ

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です