SlimPajama-DC: Understanding Data Combinations for LLM Training

  • SlimPajama-DC: Understanding Data Combinations for LLM Training [35.3]
    本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせの影響を理解することを目的とする。 SlimPajamaは厳格に重複したマルチソースデータセットで、627Bトークンにさらに重複している。
    論文  参考訳(メタデータ)   (Tue, 19 Sep 2023 17:59:54 GMT)
  • LLM学習時のデータをどう組み合わせるか検証した報告、「a lower training loss doesn’t necessarily correlate directly with superior model performance.」「This implies that as the amount of code in training increases, the training loss diminishes.」というのが面白い(言われてみればまぁそうだろうと思う。。)
  • データセットはcerebras/SlimPajama-627B · Datasets at Hugging Face

Dataset Pruning

  • Dataset Pruning: Reducing Training Data by Examining Generalization Influence [30.3]
    すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか? モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
    論文  参考訳(メタデータ)   (Thu, 19 May 2022 05:36:35 GMT)
    • 学習データ(のサブセットの削除)がネットワークパラメータに与える影響を理論的に検討、サンプル選択手順を制約付き離散最適化問題としてモデル化。実際のデータでその削減が与える影響と同じであることを検証したとのこと。

DANCE(DAta-Network Co-optimization for Efficient segmentation ):

  • DANCE: DAta-Network Co-optimization for Efficient Segmentation Model Training and Inference [85.0]
    DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。 入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。 実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
    論文  参考訳(メタデータ)   (Fri, 16 Jul 2021 04:58:58 GMT)
    • 入力イメージのダウンサンプリング&drop(スリム化)+ネットワーク構造の等を含めての最適化(スリム化)を協調して行うことで、計算コストの削減だけでなくネットワーク構造をさらにスリム化できるとの報告。