- PanGu-$\alpha$: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation [58.3]
PanGu-$alpha$という,最大2000億パラメータの大規模オートレグレッシブ言語モデルをトレーニングするプラクティスを紹介します。 PanGu-$alpha$はMindSporeの下で開発され、2048 Ascend 910 AIプロセッサのクラスタでトレーニングされている。
論文 参考訳(メタデータ) (Mon, 26 Apr 2021 06:59:36 GMT)- 中国の大規模モデル、様々な工夫によって得られた1.1TBのデータを使用。ベンチマークでも好成績とのこと。
- ハードウェアも内製?