gigantic language model – ページ 3 – arXiv最新論文の紹介

ZeroGen: データ生成を通したZero-shot Learning

ZeroGen: Efficient Zero-shot Learning via Dataset Generation [28.5]
柔軟で効率的なゼロショート学習手法であるZeroGenについて検討する。ゼロショットタスクが与えられた場合、まず、教師なしの方法で PLM を用いて、スクラッチからデータセットを生成する。テキスト分類、質問応答、自然言語推論といった異なるNLPタスクの実験と分析は、ZeroGenの有効性を示している。
論文参考訳（メタデータ） (Wed, 16 Feb 2022 08:18:02 GMT)
- 大規模生成モデルから知識を引き出し（データセットを作成し）それよりも小さなモデルで再現するアプローチの論文。Text classiﬁcationの結果は良いがSQuADなど教師有りとのパフォーマンス差があるタスクもあるとのこと。
  - このアプローチが有望であるとの報告は多いが、上記ギャップの理由が知りたいところ。
- リポジトリはGitHub – jiacheng-ye/ZeroGen: Code for our paper “ZeroGen: Efficient Zero-shot Learning via Dataset Generation”.

SuperGen: 言語モデルからのデータ生成

Generating Training Data with Language Models: Towards Zero-Shot Language Understanding [35.9]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。 NLUタスクのゼロショット学習に両タイプのPLMを用いる簡単な手法を提案する。提案手法は,GLUEベンチマークの7つの分類タスクに対して高い性能を示す。
論文参考訳（メタデータ） (Wed, 9 Feb 2022 16:02:18 GMT)
- GPT系のPLMをデータ生成に用い、双方向なBERT系PLMをfine tuningすることで優れた性能（Few(32)-shotを上回る性能）を達成とのこと。データ生成時の確率を使用したフィルタリング、ラベルスムージング・アンサンブル等が高精度な結果に寄与しているとのこと。
  - アプローチとしてはGPT-3を用いた教師無しのニューラル機械翻訳 – arXiv最新論文の紹介 (devneko.jp)に近いが、生成モデルの情報をより活用している印象
- リポジトリはGitHub – yumeng5/SuperGen: Generating Training Data with Language Models: Towards Zero-Shot Language Understanding

Megatron-Turing NLG: 530Bの言語モデル

Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model [35.8]
本稿では,最大のモノリシックトランスフォーマーベース言語モデルMegatron-Turing NLG 530B(MT-NLG)のトレーニングについて述べる。 MT-NLGは,いくつかのNLPベンチマークにおいて,ゼロ,ワンショット,少数ショットの学習精度が向上し,新たな最先端結果が得られた。
論文参考訳（メタデータ） (Fri, 28 Jan 2022 08:59:57 GMT)
- M6-10T / Yuan 1.0 / Megatron-Turing NLG 530B 巨大な事前学習モデル – arXiv最新論文の紹介 (devneko.jp)の論文、5300億パラメータの巨大言語モデル。様々な条件でGPT-3の性能を上回る。
- 2ページ目の「Figure 1: Trend of sizes of state-of-the-art NLP models with time.」からも順調（？）にモデルサイズが大きくなっていることが分かる。学習用のシステム構成は560 ノードのDGX A100、1ノードあたり 8つの NVIDIA 80-GB A100 GPU、ピーク性能は1.4 exaFLOP/s （16-bit precision）とすごい。

Language Models as Zero-Shot Planner: LMはタスクをステップに落とせるか？

Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents [111.3]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文参考訳（メタデータ） (Tue, 18 Jan 2022 18:59:45 GMT)
大規模言語モデルを用いて「歯を磨く」というタスクを「①浴室に行く」「②ドアを開ける」・・・のようにステップに落とせるか？に対する論文。一定の補正を加えることで79%で実行可能となるとのこと。VirtualHome (virtual-home.org)による可視化が面白い。
プロジェクトサイトはLanguage Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents (wenlong.page)

ERNIE 3.0 Titan: the largest Chinese dense pre-trained model

ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [50.0]
GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。 ERNIE 3.0のスケールアップ性能を調べるため、PaddlePaddleプラットフォーム上で最大2600億のパラメータを持つERNIE 3.0 Titanをトレーニング、様々なNLPタスクにおいて最先端のモデルよりも優れていた。
論文参考訳（メタデータ） (Thu, 23 Dec 2021 17:35:48 GMT)
- Baiduの巨大言語モデル、68のNLPデータセットでSoTAとのこと。
- 学習をGPUとAscend 910を併用しヘテロジニアスな構成で行う、推論もNvidia A100-SXM4(40GB)では不可能で分散実施とインフラ部分も興味津々
- 一度に複数の生徒をトレーニング可能なOnline Distillation Frameworkを提案しているのも興味深い

XGLM(multilingual Generative Language Models): 多言語モデルでのFew-shot

Few-shot Learning with Multilingual Language Models [66.5]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文参考訳（メタデータ） (Mon, 20 Dec 2021 16:52:35 GMT)
- 多言語対応モデルを新たに構築、優れた性能を発揮。非常に広範なデータで検証を行っており興味深い結果となっている。
- 日本語のデータも相応に入っており対応しているものと思われる。が、評価に使えるデータセットがXWinograd、PAWS-Xなど少なく状況が判別しにくい（モデルは公開されているようなので色々試してみるしかなさそう）
- リポジトリはfairseq/examples/xglm at main · pytorch/fairseq · GitHub

T-NLRv5, SS-MoE, Gopher, GLaM: Microsoft, Google, DeepMindの巨大言語モデル

ここ最近は巨大言語モデルの話題が多かった。

12/3 Microsoft: Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE – Microsoft Research
- Microsoftチューリングモデル（T-NLRv5）が、SuperGLUEとGLUEでSoTAを報告。
- MNLI、RTEで初めて人間のスコアを超えたとのこと。

12/8 Google: SS-MoE（[2101.03961] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (arxiv.org)ベース、Mixture-of-Expertで269B パラメータ）がSuperGLUEのSoTAを更新

12/8 DeepMind: Scaling Language Models: Methods, Analysis & Insights from Training Gopher
- DeepMindが280Bパラメータの巨大言語モデルGopherを発表
- 使用したデータはMassiveTextと呼ばれる235億文書、10.5TBの英語のテキストデータセット。WEBページ、ニュース記事、githubのコードなど様々なドメインを含む。
- 他のモデルと比較可能な124タスク中100タスクでSoTA

12/9 Google: Google AI Blog: More Efficient In-Context Learning with GLaM (googleblog.com)
- Googleが1.2Tパラメータのスパースな言語モデルを構築。GLaMはGeneralist Language Modelの略。
- 使用データは1.6兆トークン、WEBページのデータを書籍・Wikipedia（高品質データ）で作成したフィルタを用いて高品質化。
- 8つのNLGタスク、21のNLUタスクで評価、denseなモデルであるGPT-3と比べてゼロショットでは80%、ワンショットでは90%で同等以上結果と報告。
  - NLG: Natural Language Generation / テキスト生成
  - NLU: Natural Language Understanding / テキスト理解
  - ゼロショット、ワンショットともに24/29で同等以上に見えるが算出方法が分からない・・・
- 疎なモデルと密なモデルを比較すると、疎なモデルの方が少ないデータで優れた性能を発揮できるとのこと。最後にGlaMは電力効率も優れていると主張。

この先にAGIがあっても不思議ではない感覚がある。

RAVEN: モデルは新たに文書を作っているのか、学習データをコピーしているのか

How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.8]
現在の言語モデルは高品質なテキストを生成することができる。彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文参考訳（メタデータ） (Thu, 18 Nov 2021 04:07:09 GMT)
- 新規に出てきたn-gramに注目しテキストの新規性を評価する手法RAVENを開発。言語モデルが生成したテキストは学習データのコピーではないか？という疑問は昔から持っていて興味深い内容。局所的な構造では新規性が低め、全体的な構造では新規性が高め、GPT-2を対象とした解析では意味的問題が散見されたとのこと。
  - 非常に長い文を複製する（例外的な）事象がみられたとあり、この印象がコピーを行っている疑念につながっているのではないかと思う。
  - RAVENの命名はエドガー・アラン・ポーの大鴉 – Wikipediaからだそう。
- コード等は公開予定とのこと。

General Language Modelsからのナレッジグラフ作成

Symbolic Knowledge Distillation: from General Language Models to Commonsense Models [38.3]
一般的な言語モデルは、コモンセンスモデルを訓練するための知識グラフを作成できる。ニューラルモデルに加えて、記号的にテキストとして知識を蒸留する。人間が作成したコモンセンス知識グラフが、私たちの自動蒸留変種に取って代わられるのは初めてです。
論文参考訳（メタデータ）参考訳（全文） (Thu, 14 Oct 2021 06:50:19 GMT)
- GPT-3からデータを抽出、フィルタリング等により高品質化してGLMからのナレッジグラフを作成。量・質・多様性の観点で人が作成したものを上回り、元のGPT-3を上回るモデルが構築できたとのこと。「Machines can now win over humans for automatic knowledge graph construction.」というfindingsは興味深い。
- リポジトリはhttps://github.com/peterwestai2/symbolic-knowledge-distillation

GPT-3を用いた教師無しのニューラル機械翻訳

Unsupervised Neural Machine Translation with Generative Language Models Only [19.7]
生成事前学習言語モデルから、最先端の教師なしニューラルネットワーク翻訳システムを導出する方法を示す。本手法は, few-shotの増幅, 蒸留, 逆翻訳の3段階からなる。
論文参考訳（メタデータ） (Mon, 11 Oct 2021 17:35:34 GMT)
- GPT-3を用いて情報を引き出しながら教師無しで機械翻訳モデルを構築するという論文。WMT14 English-FrenchでBLEU=42.1は相当高レベル。
- GPT-3は英語への翻訳性能が高く、英語からの翻訳性能が低い。ディスカッションに書かれている通り、バックトランスレーションでこの非対称性が埋まっていくと考えると納得感のある結果。
- 巨大モデルからうまく知識を引き出して高精度な機械翻訳モデルを作るというのは面白い。自然言語処理関連のモデル構築の常識が変わる気がする。今までは高品質対訳ペアデータを持っていることが競争優位性につながったが、これからは良いgigantic language modelを持つ事がそれにつながるのではないか。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31