Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8] 本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。 論文参考訳(メタデータ) (Fri, 28 Jan 2022 08:59:57 GMT)