ERNIE 3.0 Titan: the largest Chinese dense pre-trained model

  • ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [50.0]
    GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。 ERNIE 3.0のスケールアップ性能を調べるため、PaddlePaddleプラットフォーム上で最大2600億のパラメータを持つERNIE 3.0 Titanをトレーニング、様々なNLPタスクにおいて最先端のモデルよりも優れていた。
    論文  参考訳(メタデータ)   (Thu, 23 Dec 2021 17:35:48 GMT)
    • Baiduの巨大言語モデル、68のNLPデータセットでSoTAとのこと。
    • 学習をGPUとAscend 910を併用しヘテロジニアスな構成で行う、推論もNvidia A100-SXM4(40GB)では不可能で分散実施とインフラ部分も興味津々
    • 一度に複数の生徒をトレーニング可能なOnline Distillation Frameworkを提案しているのも興味深い

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です