RedPajama: an Open Dataset for Training Large Language Models

  • RedPajama: an Open Dataset for Training Large Language Models [80.7]
    我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。 例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
    論文  参考訳(メタデータ)   (Tue, 19 Nov 2024 09:35:28 GMT)
  • RedPajamaの論文
  • リポジトリはGitHub – togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code for preparing large datasets for training large language models.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です