大規模事前学習 – ページ 10 – arXiv最新論文の紹介

NumGPT: 数値の特性を明示的に扱う事前学習モデル

NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.9]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。具体的には、プロトタイプベースの数字埋め込みを利用して、数字の仮数をエンコードし、個別の埋め込み方法によって数字の指数をエンコードする。数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文参考訳（メタデータ） (Tue, 7 Sep 2021 15:06:12 GMT)
- テキストの中の数値を通常の文字とは異なる扱いとする事前学習モデルの提案。数値関連のデータについて性能が向上したとのこと。
- 機械翻訳でも数値の取り扱いに苦労することが多い。機械的に対訳ペアを生成したデータセットの多くが数値関連の問題を抱えていることからも、数値を別扱いするというのは良い方法のように思える。
  - ニューラル機械翻訳モデルと対訳データの品質で示したように、対訳コーパス（WikiMatrixなど）によっては数値対応が取れていないデータをルールベースで削除することが精度向上につながることもある。

DialogLM: 長い対話を対象とした事前学習モデル

DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization [19.9]
本稿では,長い対話理解と要約のための事前学習フレームワークを提案する。長い会話の性質を考慮し、生成前学習のためのウィンドウベースの認知的アプローチを提案する。我々は,対話要約,抽象的質問応答,トピックセグメンテーションのタスクをカバーする,長文対話の5つのデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (Mon, 6 Sep 2021 13:55:03 GMT)
- 数千語以上と長い対話に対する言語モデルの提案。HAT-BARTやLongformerより優れた結果を出したとのこと。

FLAN(Finetuned LAnguage Net): 自然言語で命令可能なモデル

Finetuned Language Models Are Zero-Shot Learners [67.7]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。 137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。 FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文参考訳（メタデータ） (Fri, 3 Sep 2021 17:55:52 GMT)
- 効率的に自然言語で命令を記載可能な事前学習モデルを構築、GPT-３のFew-shotを上回る性能を出したとの報告。62個のデータセットを12種類のタスククラスタに分類、自然言語で書かれた命令を使いタスクを記述するためのテンプレートを手動で作成して学習データを構築。137BパラメータのTransformer（2.81T BPE tokenのWebドキュメント、対話データ、Wikipediaで事前学習済み、10%が英語以外）でモデルを構築したとのこと。読解タスクではprompt engneering無しでfew-shotのGPT-3を上回る結果を出している。一方で翻訳タスクではfew-shotのGPT-3を下回っているようで事前学習モデルの言語の偏りに影響されているように見える。
  - 自然言語で指示可能とか未来を感じる結果、そして規模が非常に大きい。
- リポジトリはhttps://github.com/google-research/flanとのことだが、現状では404

CodeT5: コード理解と生成の両方をサポートする統一フレームワーク

CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation [36.5]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文参考訳（メタデータ） (Thu, 2 Sep 2021 12:21:06 GMT)
- T5のアーキテクチャをプログラムコード用に拡張（展開）したモデルを提案、PLBARTなど先端モデルと比べても優れた性能を出したとのこと。
- リポジトリはhttps://github.com/salesforce/CodeT5

Program Synthesis with Large Language Models: 大規模言語モデルとプログラミング

Program Synthesis with Large Language Models [40.4]
我々はPythonにおけるプログラム合成のための大規模言語モデルを評価する。合成性能はモデルサイズと対数的にスケールすることがわかった。ヒトからの自然言語フィードバックは、モデルの初期予測と比較してエラー率を半減することがわかった。最高のモデルでさえ、特定の入力を与えられたプログラムの出力を予測できないことが分かりました。
論文参考訳（メタデータ） (Mon, 16 Aug 2021 03:57:30 GMT)
- 244M～137Bパラメータの言語モデルでプログラム合成タスクを試した論文。合成性能はモデルサイズと対数的にスケールするという結果が興味深い。Scaling Lawが思い浮かぶ。
- 人間からの（自然言語による）フィードバックによってエラー率が減る結果はcoplilotのようなシステムが有望であることを示しているような気がする。（一方である程度コードを読める能力がないと使いづらいのは機械翻訳と同じ印象）

Foundation Models: 基礎となるモデルの可能性とリスク

On the Opportunities and Risks of Foundation Models [260.2]
ファンデーションAIモデルは、大規模なデータに基づいてトレーニングされており、幅広い下流タスクに適応できる。本報告では,基礎モデルの可能性とリスクについて概説する。これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
論文参考訳（メタデータ） (Mon, 16 Aug 2021 17:50:08 GMT)
- StanfordのCenter for Research on Foundation Models (CRFM)による基礎モデル（≒大規模事前学習モデル）の可能性とリスクに関する論文。近年の大規模事前学習の状況と未来における課題について広範にまとまっている。114人の著者による211ページの論文であり書籍といっても良い規模。
- https://www.arxiv-vanity.com/で変換済みのようなので、ここからブラウザの翻訳等使うと読みやすいかもしれない。

T-PTLM(Transformer-based Pretrained Language Models)のサーベイ

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing [0.0]
トランスフォーマーベースの事前訓練言語モデル(T-PTLM)は、ほぼすべてのNLPタスクで大きな成功を収めている。変換されたPTLMは、自己教師付き学習を用いて大量のテキストデータから普遍的な言語表現を学習する。これらのモデルは、下流モデルのスクラッチからのトレーニングを避けるために、下流タスクに適切なバックグラウンド知識を提供する。
論文参考訳（メタデータ） (Thu, 12 Aug 2021 05:32:18 GMT)
- 最近よく見るTransformerを用いた大規模事前学習モデルのサーベイ。42ページ、引用数304でこの分野を広範に調査、整理している。

プロンプトに関するサーベイ

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing [78.9]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文参考訳（メタデータ） (Wed, 28 Jul 2021 18:09:46 GMT)
- GPT-2、GPT-3などで有名になり、Few-shotで重要なプロンプトに関するサーベイ。プロンプトの位置づけや概要から始まり、モデル、テクニック、応用など幅広い内容で非常に良い資料。TABLE 12 Timeline of prompt-based learningで2021.07.15 の FLEXまでカバーしているのも凄い。
- http://pretrain.nlpedia.ai/にサイトがある。

MWP(Math word problem)とBERT

MWP-BERT: A Strong Baseline for Math Word Problems [47.5]
数学語問題( Math word problem、MWP)とは、自然言語による問題記述の列を、実行可能な数学方程式に変換するタスクである。近年, MWP の逐次モデル化は, 文脈理解の数学的側面から評価されているが, 事前学習言語モデル (PLM) はMWP の解法として研究されていない。我々はMWP-BERTを導入し、テキスト記述と数理論理の整合性を捉える事前訓練されたトークン表現を得る。
論文参考訳（メタデータ） (Wed, 28 Jul 2021 15:28:41 GMT)
- 事前学習言語モデルを用いたMWP（テキストの記述を方程式に変換するタスク）に関する報告。Math23Kで6%と大幅な改善を達成とのこと。

ERNIE 3.0、SuperGLUEトップの事前学習モデル

ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [25.4]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文参考訳（メタデータ） (Mon, 5 Jul 2021 16:54:59 GMT)
- SuperGLUE で1位となったERNIE3.0の報告。4TBコーパス、100億パラメータのモデルとのこと。SuperGLUEのトップは素晴らしい性能。
- 自然言語処理関連ではアメリカと中国で激しい競争となっていて、それを象徴する成果のように思う。

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31