RedPajama: an Open Dataset for Training Large Language Models

RedPajama: an Open Dataset for Training Large Language Models [80.7]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (Tue, 19 Nov 2024 09:35:28 GMT)
RedPajamaの論文
リポジトリはGitHub – togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code for preparing large datasets for training large language models.

コメントを残す

コメントを残す コメントをキャンセル