ここ最近は巨大言語モデルの話題が多かった。
- 12/3 Microsoft: Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE – Microsoft Research
- Microsoftチューリングモデル(T-NLRv5)が、SuperGLUEとGLUEでSoTAを報告。
- MNLI、RTEで初めて人間のスコアを超えたとのこと。
- 12/8 Google: SS-MoE([2101.03961] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (arxiv.org)ベース、Mixture-of-Expertで269B パラメータ)がSuperGLUEのSoTAを更新
- 12/8 DeepMind: Scaling Language Models: Methods, Analysis & Insights from Training Gopher
- DeepMindが280Bパラメータの巨大言語モデルGopherを発表
- 使用したデータはMassiveTextと呼ばれる235億文書、10.5TBの英語のテキストデータセット。WEBページ、ニュース記事、githubのコードなど様々なドメインを含む。
- 他のモデルと比較可能な124タスク中100タスクでSoTA
- 12/9 Google: Google AI Blog: More Efficient In-Context Learning with GLaM (googleblog.com)
- Googleが1.2Tパラメータのスパースな言語モデルを構築。GLaMはGeneralist Language Modelの略。
- 使用データは1.6兆トークン、WEBページのデータを書籍・Wikipedia(高品質データ)で作成したフィルタを用いて高品質化。
- 8つのNLGタスク、21のNLUタスクで評価、denseなモデルであるGPT-3と比べてゼロショットでは80%、ワンショットでは90%で同等以上結果と報告。
- NLG: Natural Language Generation / テキスト生成
- NLU: Natural Language Understanding / テキスト理解
- ゼロショット、ワンショットともに24/29で同等以上に見えるが算出方法が分からない・・・
- 疎なモデルと密なモデルを比較すると、疎なモデルの方が少ないデータで優れた性能を発揮できるとのこと。最後にGlaMは電力効率も優れていると主張。
この先にAGIがあっても不思議ではない感覚がある。