2021年12月11日 – arXiv最新論文の紹介

T-NLRv5, SS-MoE, Gopher, GLaM: Microsoft, Google, DeepMindの巨大言語モデル

ここ最近は巨大言語モデルの話題が多かった。

12/3 Microsoft: Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE – Microsoft Research
- Microsoftチューリングモデル（T-NLRv5）が、SuperGLUEとGLUEでSoTAを報告。
- MNLI、RTEで初めて人間のスコアを超えたとのこと。

12/8 Google: SS-MoE（[2101.03961] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (arxiv.org)ベース、Mixture-of-Expertで269B パラメータ）がSuperGLUEのSoTAを更新

12/8 DeepMind: Scaling Language Models: Methods, Analysis & Insights from Training Gopher
- DeepMindが280Bパラメータの巨大言語モデルGopherを発表
- 使用したデータはMassiveTextと呼ばれる235億文書、10.5TBの英語のテキストデータセット。WEBページ、ニュース記事、githubのコードなど様々なドメインを含む。
- 他のモデルと比較可能な124タスク中100タスクでSoTA

12/9 Google: Google AI Blog: More Efficient In-Context Learning with GLaM (googleblog.com)
- Googleが1.2Tパラメータのスパースな言語モデルを構築。GLaMはGeneralist Language Modelの略。
- 使用データは1.6兆トークン、WEBページのデータを書籍・Wikipedia（高品質データ）で作成したフィルタを用いて高品質化。
- 8つのNLGタスク、21のNLUタスクで評価、denseなモデルであるGPT-3と比べてゼロショットでは80%、ワンショットでは90%で同等以上結果と報告。
  - NLG: Natural Language Generation / テキスト生成
  - NLU: Natural Language Understanding / テキスト理解
  - ゼロショット、ワンショットともに24/29で同等以上に見えるが算出方法が分からない・・・
- 疎なモデルと密なモデルを比較すると、疎なモデルの方が少ないデータで優れた性能を発揮できるとのこと。最後にGlaMは電力効率も優れていると主張。

この先にAGIがあっても不思議ではない感覚がある。