When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

  • When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.9]
    大量のテキストデータが大きな言語モデルの開発に大きく貢献している。 これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。 より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
    論文  参考訳(メタデータ)   (Fri, 8 Sep 2023 19:34:05 GMT)
  • Cohere for AIによるデータ品質向上に関する報告
  • パープレキシティを用いるシンプル(?)な手法が高性能とのこと

Beyond neural scaling laws

  • Beyond neural scaling laws: beating power law scaling via data pruning [37.8]広範囲に観察されたニューラルネットワークのスケーリング法則では、トレーニングセットのサイズやモデルサイズに応じてディープラーニングのパフォーマンスが大幅に向上している。しかし、スケーリングによるこれらの改善は計算とエネルギーにかなりのコストを必要とする。 ここでは、高品質なデータプルーニングメトリックにアクセスできれば、指数的スケーリングに縮小できることを示す。
    論文  参考訳(メタデータ)   (Wed, 29 Jun 2022 09:20:47 GMT)
    • 通常、学習データセット内のデータには冗長なものが多く、それらをうまく扱うことでScaling lawを超えた学習が可能であるとの指摘。理論解析、実証とも行っており非常に興味深い内容。