- When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.9]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。 これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。 より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (Fri, 8 Sep 2023 19:34:05 GMT) - Cohere for AIによるデータ品質向上に関する報告
- パープレキシティを用いるシンプル(?)な手法が高性能とのこと