Megatron-Turing NLG: 530Bの言語モデル

  • Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8]
    本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
    論文  参考訳(メタデータ)   (Fri, 28 Jan 2022 08:59:57 GMT)
    • 2ページ目の「Figure 1: Trend of sizes of state-of-the-art NLP models with time.」からも順調(?)にモデルサイズが大きくなっていることが分かる。学習用のシステム構成は560 ノードのDGX A100、1ノードあたり 8つの NVIDIA 80-GB A100 GPU、ピーク性能は1.4 exaFLOP/s (16-bit precision)とすごい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です