M6-10T / Yuan 1.0 / Megatron-Turing NLG 530B 巨大な事前学習モデル

M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.2]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略”Pseudo-to-Real”を提案する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 8 Oct 2021 04:24:51 GMT)
- 極めて巨大な言語モデルの学習方法を扱った論文。10日以内に512個のGPUだけで、非常に巨大な10Tパラメータのモデルを事前学習可能とのこと。

Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning [20.6]
GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
論文参考訳（メタデータ） (Sun, 10 Oct 2021 07:40:22 GMT)
- 中国の245Bパラメータの巨大なモデル。5TBの高品質な中国語のデータで学習（4095 PetaFlops-days。。。）し様々なタスクで優れた性能を確認。

NVIDIAとMicrosoftが「Megatron-Turing NLG 530B」という530Bパラメータ（GPT-3の3倍）のモデルを発表している。（NVIDIAの記事、Microsoftの記事）zero-shot、few-shotそれぞれで性能が改善しており巨大なモデル構築競争はしばらく続きそう。
- 記事にある「We live in a time where AI advancements are far outpacing Moore’s law.」という記載が興味深い。

コメントを残すコメントをキャンセル