SlimPajama-DC: Understanding Data Combinations for LLM Training
SlimPajama-DC: Understanding Data Combinations for LLM Training [35.3] 本稿では,SlimPajamaを用いた大規模言語モデルの学習における各種データの組み合わせの影響を理解することを目的とする。 SlimPajamaは厳格に重複したマルチソースデータセットで、627Bトークンにさらに重複している。 論文参考訳(メタデータ) (Tue, 19 Sep 2023 17:59:54 GMT)
LLM学習時のデータをどう組み合わせるか検証した報告、「a lower training loss doesn’t necessarily correlate directly with superior model performance.」「This implies that as the amount of code in training increases, the training loss diminishes.」というのが面白い(言われてみればまぁそうだろうと思う。。)