M6-10T / Yuan 1.0 / Megatron-Turing NLG 530B 巨大な事前学習モデル

  • M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.2]
    極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。 本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略”Pseudo-to-Real”を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 8 Oct 2021 04:24:51 GMT)
    • 極めて巨大な言語モデルの学習方法を扱った論文。10日以内に512個のGPUだけで、非常に巨大な10Tパラメータのモデルを事前学習可能とのこと。
  • Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning [20.6]
    GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。 本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
    論文  参考訳(メタデータ)   (Sun, 10 Oct 2021 07:40:22 GMT)
    • 中国の245Bパラメータの巨大なモデル。5TBの高品質な中国語のデータで学習(4095 PetaFlops-days。。。)し様々なタスクで優れた性能を確認。
  • NVIDIAとMicrosoftが「Megatron-Turing NLG 530B」という530Bパラメータ(GPT-3の3倍)のモデルを発表している。(NVIDIAの記事Microsoftの記事)zero-shot、few-shotそれぞれで性能が改善しており巨大なモデル構築競争はしばらく続きそう。
    • 記事にある「We live in a time where AI advancements are far outpacing Moore’s law.」という記載が興味深い。

UDG(Unsupervised Data Generation )によるゼロラベル学習

  • Towards Zero-Label Language Learning [20.3]
    本稿では自然言語処理(NLP)におけるゼロラベル学習について検討する。 トレーニング中、どこにでも人間の注釈付きデータを使用しず、モデルが純粋に合成データに基づいて訓練される。 GPT-3における数発の推論の成功に触発されて、教師なしデータ生成というトレーニングデータ生成手順を提案する。
    論文  参考訳(メタデータ)   (Sun, 19 Sep 2021 19:00:07 GMT)
    • 事前学習された言語モデル(GLM: Gigantic Language Model)で合成データを作成、それをもとにして学習する手法の提案。ラベル付きデータとの組み合わせによってSuperGLUEで優れた性能(現時点で2位)が達成できている。
      • 「リアルなデータではラベルが入力相当データの後に来るとは限らない、プロンプトは最適ではない」にそうだよなーと思った。
    • アプローチとしてはSTraTAに近いように思う。巨大言語モデルから必要なデータを引き出そうとしているように見え面白い。