When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

  • When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.9]
    大量のテキストデータが大きな言語モデルの開発に大きく貢献している。 これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。 より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
    論文  参考訳(メタデータ)   (Fri, 8 Sep 2023 19:34:05 GMT)
  • Cohere for AIによるデータ品質向上に関する報告
  • パープレキシティを用いるシンプル(?)な手法が高性能とのこと

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です