Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset 

  • Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset [33.2]
    精度とデータ量とのトレードオフを改善する方法を示します。 15Tトークンのためにトレーニングされた8Bパラメータモデルで、うち7.2Tは、Llama 3.1 8Bモデルよりも優れている。
    論文  参考訳(メタデータ)   (Tue, 03 Dec 2024 17:28:50 GMT)
  • RedStone同様、Common CrawlをうまくRefineする手法の報告。こちらはNDIVIAによるもの。「We propose a method for transforming English Common Crawl into a 6.3T token longhorizon pretraining dataset, consisting of 4.4T globally deduplicated original tokens and 1.9T synthetically generated tokens.」と合成データについて触れられているのも興味深い。
  • プロジェクトサイトはNemotron-CC

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です