ERNIE 3.0 Titan: the largest Chinese dense pre-trained model

ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [50.0]
GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。 ERNIE 3.0のスケールアップ性能を調べるため、PaddlePaddleプラットフォーム上で最大2600億のパラメータを持つERNIE 3.0 Titanをトレーニング、様々なNLPタスクにおいて最先端のモデルよりも優れていた。
論文参考訳（メタデータ） (Thu, 23 Dec 2021 17:35:48 GMT)
- Baiduの巨大言語モデル、68のNLPデータセットでSoTAとのこと。
- 学習をGPUとAscend 910を併用しヘテロジニアスな構成で行う、推論もNvidia A100-SXM4(40GB)では不可能で分散実施とインフラ部分も興味津々
- 一度に複数の生徒をトレーニング可能なOnline Distillation Frameworkを提案しているのも興味深い

コメントを残す

コメントを残す コメントをキャンセル