データ削減 – arXiv最新論文の紹介

Efficient Online Data Mixing For Language Model Pre-Training

Efficient Online Data Mixing For Language Model Pre-Training [101.5]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (Tue, 5 Dec 2023 00:42:35 GMT)
下流タスクに最適な事前学習用データを作るための効率的なアルゴリズムの提案、名前の通りオンラインなアプローチ。DoReMi: Domain Reweighting with Minimax Optimization – arXiv最新論文の紹介 (devneko.jp)からの改善を主張（というか一部は再現できていない？）

Dataset Condensation via Efficient Synthetic-Data Parameterization [40.6]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文参考訳（メタデータ） (Thu, 2 Jun 2022 05:45:02 GMT)
- 凝縮したデータをさらに複数組み合わせる形で用いて、ストレージ制約のある状況下で効率的に学習が可能なデータを合成する研究。
  - Dataset condenstaionは面白い研究で（性能が上がれば）実用性もありそうな気がするが、こういうデータにもPoisoningできたりするのだろうかという素朴な疑問
- リポジトリはGitHub – snu-mllab/Efficient-Dataset-Condensation: Official PyTorch implementation of “Dataset Condensation via Efficient Synthetic-Data Parameterization” (ICML’22)

Dataset Pruning: Reducing Training Data by Examining Generalization Influence [30.3]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか? モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文参考訳（メタデータ） (Thu, 19 May 2022 05:36:35 GMT)
- 学習データ（のサブセットの削除）がネットワークパラメータに与える影響を理論的に検討、サンプル選択手順を制約付き離散最適化問題としてモデル化。実際のデータでその削減が与える影響と同じであることを検証したとのこと。

データ削減（重要なデータか否かの仕分けやもっと単純に重複排除）の効果に関連する論文がいくつか出ている。「ニューラル機械翻訳モデルと対訳データの品質」にも関連するが、不要っぽいデータが含まれているデータセットは多い。

Distribution of Classification Margins: Are All Data Equal? [61.2]
最近の理論的結果は、指数損失関数の下でのディープニューラルネットワークの勾配降下が局所的に分類マージンを最大化することを示しており、これはマージン制約の下で重み行列のノルムを最小化するのと同値である。我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを示す。次に、データ分離が達成されれば、パフォーマンスを著しく損なうことなく、トレーニングセットを99%以上動的に削減できることを示す。興味深いことに、得られた”高容量”特徴のサブセットは、異なるトレーニング実行間で一貫性がない。
論文参考訳（メタデータ）参考訳（全文） (Wed, 21 Jul 2021 16:41:57 GMT)

Deep Learning on a Data Diet: Finding Important Examples Early in Training [38.8]
個別学習例の初期損失勾配基準は、一般化に重要な訓練データの小さな集合を特定するのに有効であることを示す。本研究では,訓練の早い段階でローカル情報のみを使用するデータ解析手法を提案し,トレーニング中に忘れられることがほとんどない例を捨てることで,データを創出する最近の研究に接続する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 15 Jul 2021 02:12:20 GMT)

Deduplicating Training Data Makes Language Models Better [50.2]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。これらのデータセットでトレーニングされた言語モデルのプロンプトなしの出力の1%以上が、トレーニングデータからコピーされている。重複排除により記憶したテキストの出力が10分の1以下になり、同様の精度を少ないステップで達成できる。
論文参考訳（メタデータ） (Wed, 14 Jul 2021 06:06:52 GMT)