コンテンツへスキップ
- ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [50.0]
GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。 ERNIE 3.0のスケールアップ性能を調べるため、PaddlePaddleプラットフォーム上で最大2600億のパラメータを持つERNIE 3.0 Titanをトレーニング、様々なNLPタスクにおいて最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (Thu, 23 Dec 2021 17:35:48 GMT)- Baiduの巨大言語モデル、68のNLPデータセットでSoTAとのこと。
- 学習をGPUとAscend 910を併用しヘテロジニアスな構成で行う、推論もNvidia A100-SXM4(40GB)では不可能で分散実施とインフラ部分も興味津々
- 一度に複数の生徒をトレーニング可能なOnline Distillation Frameworkを提案しているのも興味深い