The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 06:42:22 GMT)
デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile（800GB）以上の規模で大規模言語モデル構築で十分機能するデータ量
日本語データを作ってみたいなーと思いつつ、参考になる情報（データセットが構築できても計算環境が厳しいが…）

コメントを残す

コメントを残す コメントをキャンセル