- Effective pruning of web-scale datasets based on complexity of concept clusters [48.1]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。 高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減し、より高いパフォーマンスをもたらす可能性があることに気付きました。 DataComp Mediumのベンチマークでは,38のタスクに対して,最先端のImageNetゼロショット精度と競合平均ゼロショット精度を実現している。
論文 参考訳(メタデータ) (Tue, 9 Jan 2024 14:32:24 GMT) - データセットの効果的なフィルタリング方法の提案。LAION datasetで検証。
- deduplication, CLIP-score filtering, Density-Based-Pruningのパイプラインでembeddingを効果的に使うアプローチ