When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.9]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文参考訳（メタデータ） (Fri, 8 Sep 2023 19:34:05 GMT)
Cohere for AIによるデータ品質向上に関する報告
パープレキシティを用いるシンプル（？）な手法が高性能とのこと

コメントを残す

コメントを残す コメントをキャンセル