- RedPajama: an Open Dataset for Training Large Language Models [80.7]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。 例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (Tue, 19 Nov 2024 09:35:28 GMT) - RedPajamaの論文
- リポジトリはGitHub – togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code for preparing large datasets for training large language models.