- DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining [172.3]
ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。 DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。 次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
論文 参考訳(メタデータ) (Wed, 17 May 2023 17:58:13 GMT) - データセットのドメインに対するウェイトを調整する手法の提案。小さなモデルで試行後に大きなモデルでのドメインウェイトを決めるアプトローチで「DoReMi improves average one-shot downstream accuracy by 6.5% and reaches the baseline accuracy 2.6x faster when pretraining on The Pile.」ととても効果的そう
- The Pileを用いた実験でWikipediaのウェイトがベースラインよりも低くなっているにもかかわらず、Wikipedia由来のデータセットでのdown stream性能が上がっているのが面白い。なぜなんだろう・・・?
タグ: dataset condensation
Dataset Distlillationのサーベイ
最近よく見るデータセット蒸留のサーベイ。基本的には少ないデータで十分な性能のモデル構築ができるようなデータセット作成を目的にしているが、生データを公開しなくてもよくなる場合があり情報保護の観点からも重要な技術になりうる。アプローチも様々で興味深い。
- Dataset Distillation: A Comprehensive Review [54.3]
データセット蒸留(DD)は、いくつかの合成サンプルを含むはるかに小さなデータセットを目標としている。 本稿では,最近のDDの進歩と応用について概説する。
論文 参考訳(メタデータ) (Tue, 17 Jan 2023 17:03:28 GMT)
- A Comprehensive Survey to Dataset Distillation [91.4]
限られた計算能力で無制限に成長するデータに対処することは困難になっている。 ディープラーニング技術はこの10年で前例のない発展を遂げた。 本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (Fri, 13 Jan 2023 15:11:38 GMT)
転送学習におけるソースデータセットの役割
- A Data-Based Perspective on Transfer Learning [76.3]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。 我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文 参考訳(メタデータ) (Tue, 12 Jul 2022 17:58:28 GMT)- 事前学習用データから不要なものを取り除くことで最終性能が上がること、および、そのフレームワークの提案
- 頑健性の変化についても知りたいところ。。
- リポジトリはGitHub – MadryLab/data-transfer
- 事前学習用データから不要なものを取り除くことで最終性能が上がること、および、そのフレームワークの提案
Beyond neural scaling laws
- Beyond neural scaling laws: beating power law scaling via data pruning [37.8]広範囲に観察されたニューラルネットワークのスケーリング法則では、トレーニングセットのサイズやモデルサイズに応じてディープラーニングのパフォーマンスが大幅に向上している。しかし、スケーリングによるこれらの改善は計算とエネルギーにかなりのコストを必要とする。 ここでは、高品質なデータプルーニングメトリックにアクセスできれば、指数的スケーリングに縮小できることを示す。
論文 参考訳(メタデータ) (Wed, 29 Jun 2022 09:20:47 GMT)- 通常、学習データセット内のデータには冗長なものが多く、それらをうまく扱うことでScaling lawを超えた学習が可能であるとの指摘。理論解析、実証とも行っており非常に興味深い内容。
より効率的なDataset Condensation
- Dataset Condensation via Efficient Synthetic-Data Parameterization [40.6]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。 データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。 本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (Thu, 2 Jun 2022 05:45:02 GMT)- 凝縮したデータをさらに複数組み合わせる形で用いて、ストレージ制約のある状況下で効率的に学習が可能なデータを合成する研究。
- Dataset condenstaionは面白い研究で(性能が上がれば)実用性もありそうな気がするが、こういうデータにもPoisoningできたりするのだろうかという素朴な疑問
- リポジトリはGitHub – snu-mllab/Efficient-Dataset-Condensation: Official PyTorch implementation of “Dataset Condensation via Efficient Synthetic-Data Parameterization” (ICML’22)
- 凝縮したデータをさらに複数組み合わせる形で用いて、ストレージ制約のある状況下で効率的に学習が可能なデータを合成する研究。