The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text [81.0] オープンライセンスの8テラバイトのテキストコレクションであるCommon Pile v0.1を収集、キュレート、リリースしています。 Common Pileは、研究論文、コード、書籍、百科事典、教育資料、オーディオ書き起こしなど、さまざまな分野にまたがる30のソースからのコンテンツで構成されている。 我々は,コモンパイルからテキストで20億のパラメータLSMをトレーニングすることで,我々の努力を検証する。 論文参考訳(メタデータ) (Thu, 05 Jun 2025 16:21:30 GMT)
「We release Common Pile v0.1, an 8TB corpus that—to our knowledge—constitutes the largest dataset built exclusively from openly licensed text. 」というクリーンなデータセット構築と競争力のあるモデル構築の検証。「Our results demonstrate that not only is the Common Pile the strongest dataset for pretraining under an open-license constraint, but also that it produces models comparable to those trained on an equivalent amount of unlicensed data. This positive result holds promise for future of open-license pretraining, especially if the research community invests in collecting larger quantities of openly licensed text data in the future.」とのこと。