- The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。 本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文 参考訳(メタデータ) (Thu, 30 Mar 2023 06:42:22 GMT) - デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile(800GB)以上の規模で大規模言語モデル構築で十分機能するデータ量
- 日本語データを作ってみたいなーと思いつつ、参考になる情報(データセットが構築できても計算環境が厳しいが…)