T-NLRv5, SS-MoE, Gopher, GLaM: Microsoft, Google, DeepMindの巨大言語モデル

ここ最近は巨大言語モデルの話題が多かった。

  • 12/8 DeepMind: Scaling Language Models: Methods, Analysis & Insights from Training Gopher
    • DeepMindが280Bパラメータの巨大言語モデルGopherを発表
    • 使用したデータはMassiveTextと呼ばれる235億文書、10.5TBの英語のテキストデータセット。WEBページ、ニュース記事、githubのコードなど様々なドメインを含む。
    • 他のモデルと比較可能な124タスク中100タスクでSoTA
  • 12/9 Google: Google AI Blog: More Efficient In-Context Learning with GLaM (googleblog.com)
    • Googleが1.2Tパラメータのスパースな言語モデルを構築。GLaMはGeneralist Language Modelの略。
    • 使用データは1.6兆トークン、WEBページのデータを書籍・Wikipedia(高品質データ)で作成したフィルタを用いて高品質化。
    • 8つのNLGタスク、21のNLUタスクで評価、denseなモデルであるGPT-3と比べてゼロショットでは80%、ワンショットでは90%で同等以上結果と報告。
      • NLG: Natural Language Generation / テキスト生成
      • NLU: Natural Language Understanding  / テキスト理解
      • ゼロショット、ワンショットともに24/29で同等以上に見えるが算出方法が分からない・・・
    • 疎なモデルと密なモデルを比較すると、疎なモデルの方が少ないデータで優れた性能を発揮できるとのこと。最後にGlaMは電力効率も優れていると主張。

この先にAGIがあっても不思議ではない感覚がある。