The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling 

  • The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
    我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。 本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
    論文  参考訳(メタデータ)   (Thu, 30 Mar 2023 06:42:22 GMT)
  • デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile(800GB)以上の規模で大規模言語モデル構築で十分機能するデータ量
  • 日本語データを作ってみたいなーと思いつつ、参考になる情報(データセットが構築できても計算環境が厳しいが…)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です