dataset condensation – arXiv最新論文の紹介

Predictive Data Selection: The Data That Predicts Is the Data That Teaches

Predictive Data Selection: The Data That Predicts Is the Data That Teaches [19.0]
予測データ選択(PreSelect)は,高速テキストベースのスコアラのみのトレーニングとデプロイを必要とする軽量で効率的なデータ選択手法である。我々は、PreSelectで選択された30Bトークンでトレーニングされたモデルが300Bトークンでトレーニングされたバニラベースラインのパフォーマンスを上回ることを示した。
論文参考訳（メタデータ） (Tue, 04 Mar 2025 06:15:27 GMT)
「Building on this observation, we hypothesize that data on which model losses are predictive of downstream abilities also contribute effectively to learning.」という仮定の下設計されたデータ選択手法PRESELECTの提案。「PRESELECT demonstrates remarkable performance, with an average absolute improvement of 2.8% over the random selection and 20% gains in Math and Code raw text BPC, which shows a promising trend.」と効果を主張。
リポジトリはGitHub – hkust-nlp/PreSelect

DataComp-LM: In search of the next generation of training sets for language models

DataComp-LM: In search of the next generation of training sets for language models [193.3]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (Mon, 17 Jun 2024 17:42:57 GMT)
言語モデルトレーニング時のデータキュレーションのためのベンチマークDataComp for Language Models (DCLM)の提案。重要なベンチマークで小さめのトラックも用意されている（最小トラックは412Mパラメータ、8.2B学習用トークン（元データ469B）、学習用の計算量は2.0e19FLOPs、H100換算で26時間）が、それにしても参加するにも結構な環境が必要そう。。。
プロジェクトサイトはDataComp

関連するものとして下記論文も参考になる。

Data-Centric AI in the Age of Large Language Models [51.2]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 16:34:07 GMT)
LLMの時代においてもデータは重要、DataCOMPについては「DataComp is a more suitable starting point due to its scale and the promising initial findings.」と記載。

TIVE: Task-level and Instance-level Value Estimation

Less is More: Data Value Estimation for Visual Instruction Tuning [127.4]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。 LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文参考訳（メタデータ） (Thu, 14 Mar 2024 16:47:25 GMT)
visual instruction datasetには不要・冗長なデータが多く含まれており、その重要性を評価して削減する手法を提案。「using only about 7.5% data can achieve comparable performance as the full-data fine-tuned model across seven benchmarks, even surpassing it on four of the benchmarks.」とのことで、非常に効果的に見える。
「Our code and data will be publicly released.」らしい

Effective pruning of web-scale datasets based on complexity of concept clusters

Effective pruning of web-scale datasets based on complexity of concept clusters [48.1]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減し、より高いパフォーマンスをもたらす可能性があることに気付きました。 DataComp Mediumのベンチマークでは,38のタスクに対して,最先端のImageNetゼロショット精度と競合平均ゼロショット精度を実現している。
論文参考訳（メタデータ） (Tue, 9 Jan 2024 14:32:24 GMT)
データセットの効果的なフィルタリング方法の提案。LAION datasetで検証。
deduplication, CLIP-score filtering, Density-Based-Pruningのパイプラインでembeddingを効果的に使うアプローチ

DoReMi: Domain Reweighting with Minimax Optimization

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining [172.3]
ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。 DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
論文参考訳（メタデータ） (Wed, 17 May 2023 17:58:13 GMT)
データセットのドメインに対するウェイトを調整する手法の提案。小さなモデルで試行後に大きなモデルでのドメインウェイトを決めるアプトローチで「DoReMi improves average one-shot downstream accuracy by 6.5% and reaches the baseline accuracy 2.6x faster when pretraining on The Pile.」ととても効果的そう
The Pileを用いた実験でWikipediaのウェイトがベースラインよりも低くなっているにもかかわらず、Wikipedia由来のデータセットでのdown stream性能が上がっているのが面白い。なぜなんだろう・・・？

Dataset Distlillationのサーベイ

最近よく見るデータセット蒸留のサーベイ。基本的には少ないデータで十分な性能のモデル構築ができるようなデータセット作成を目的にしているが、生データを公開しなくてもよくなる場合があり情報保護の観点からも重要な技術になりうる。アプローチも様々で興味深い。

Dataset Distillation: A Comprehensive Review [54.3]
データセット蒸留(DD)は、いくつかの合成サンプルを含むはるかに小さなデータセットを目標としている。本稿では,最近のDDの進歩と応用について概説する。
論文参考訳（メタデータ） (Tue, 17 Jan 2023 17:03:28 GMT)

A Comprehensive Survey to Dataset Distillation [91.4]
限られた計算能力で無制限に成長するデータに対処することは困難になっている。ディープラーニング技術はこの10年で前例のない発展を遂げた。本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文参考訳（メタデータ） (Fri, 13 Jan 2023 15:11:38 GMT)

転送学習におけるソースデータセットの役割

A Data-Based Perspective on Transfer Learning [76.3]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文参考訳（メタデータ） (Tue, 12 Jul 2022 17:58:28 GMT)
- 事前学習用データから不要なものを取り除くことで最終性能が上がること、および、そのフレームワークの提案
  - 頑健性の変化についても知りたいところ。。
- リポジトリはGitHub – MadryLab/data-transfer

Beyond neural scaling laws

Beyond neural scaling laws: beating power law scaling via data pruning [37.8]広範囲に観察されたニューラルネットワークのスケーリング法則では、トレーニングセットのサイズやモデルサイズに応じてディープラーニングのパフォーマンスが大幅に向上している。しかし、スケーリングによるこれらの改善は計算とエネルギーにかなりのコストを必要とする。ここでは、高品質なデータプルーニングメトリックにアクセスできれば、指数的スケーリングに縮小できることを示す。
論文参考訳（メタデータ） (Wed, 29 Jun 2022 09:20:47 GMT)
- 通常、学習データセット内のデータには冗長なものが多く、それらをうまく扱うことでScaling lawを超えた学習が可能であるとの指摘。理論解析、実証とも行っており非常に興味深い内容。

より効率的なDataset Condensation

Dataset Condensation via Efficient Synthetic-Data Parameterization [40.6]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文参考訳（メタデータ） (Thu, 2 Jun 2022 05:45:02 GMT)
- 凝縮したデータをさらに複数組み合わせる形で用いて、ストレージ制約のある状況下で効率的に学習が可能なデータを合成する研究。
  - Dataset condenstaionは面白い研究で（性能が上がれば）実用性もありそうな気がするが、こういうデータにもPoisoningできたりするのだろうかという素朴な疑問
- リポジトリはGitHub – snu-mllab/Efficient-Dataset-Condensation: Official PyTorch implementation of “Dataset Condensation via Efficient Synthetic-Data Parameterization” (ICML’22)

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31