- Dataset Condensation via Efficient Synthetic-Data Parameterization [40.6]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。 データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。 本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (Thu, 2 Jun 2022 05:45:02 GMT)- 凝縮したデータをさらに複数組み合わせる形で用いて、ストレージ制約のある状況下で効率的に学習が可能なデータを合成する研究。
- Dataset condenstaionは面白い研究で(性能が上がれば)実用性もありそうな気がするが、こういうデータにもPoisoningできたりするのだろうかという素朴な疑問
- リポジトリはGitHub – snu-mllab/Efficient-Dataset-Condensation: Official PyTorch implementation of “Dataset Condensation via Efficient Synthetic-Data Parameterization” (ICML’22)
- 凝縮したデータをさらに複数組み合わせる形で用いて、ストレージ制約のある状況下で効率的に学習が可能なデータを合成する研究。