- PanGu-{\Sigma}: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing [64.5]
PanGu-SigmaはAscend 910 AIプロセッサとMindSporeフレームワークのクラスタでトレーニングされている。 さまざまな中国のNLPダウンストリームタスクのゼロショット学習において、最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (Mon, 20 Mar 2023 03:39:27 GMT) - 1.085T パラメータの非常に大規模な言語モデル
- 学習戦略やデータセット、ベンチマーク結果まで詳細を公開している印象。2600億パラメータのERNIE 3.0 Titanよりも性能が優れており、規模の大きさが効いていそうなことが伺える