FineWeb2: One Pipeline to Scale Them All — Adapting Pre-Training Data Processing to Every Language
FineWeb2: One Pipeline to Scale Them All — Adapting Pre-Training Data Processing to Every Language [48.8] 我々は、FineWebをベースにした、新しいトレーニング済みデータセットキュレーションパイプラインを導入する。 我々のパイプラインは、以前のデータセットよりもパフォーマンスの高いモデルを生成する非英語コーパスを作成するために使用できることを示す。 パイプラインを約100のCommon Crawlスナップショットを使用して1000以上の言語に拡張し、新たに20テラバイト(50億ドキュメント)のマルチリンガルデータセットであるFinWeb2を生成しました。 論文参考訳(メタデータ) (Thu, 26 Jun 2025 01:01:47 GMT)