Megatron-Turing NLG: 530Bの言語モデル – arXiv最新論文の紹介

Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8]
本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
論文参考訳（メタデータ） (Fri, 28 Jan 2022 08:59:57 GMT)
- M6-10T / Yuan 1.0 / Megatron-Turing NLG 530B 巨大な事前学習モデル – arXiv最新論文の紹介 (devneko.jp)の論文、5300億パラメータの巨大言語モデル。様々な条件でGPT-3の性能を上回る。
- 2ページ目の「Figure 1: Trend of sizes of state-of-the-art NLP models with time.」からも順調（？）にモデルサイズが大きくなっていることが分かる。学習用のシステム構成は560 ノードのDGX A100、1ノードあたり 8つの NVIDIA 80-GB A100 GPU、ピーク性能は1.4 exaFLOP/s （16-bit precision）とすごい。

コメントを残す

コメントを残す コメントをキャンセル