大規模事前学習 – ページ 8 – arXiv最新論文の紹介

s2s-ft: 自然言語生成に適した事前学習モデル

s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning [47.3]
条件付き生成タスクに予めトレーニングされたトランスフォーマーを採用するシーケンス・ツー・シーケンスの微調整ツールキット s2s-ft を提案する。 S2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を達成する。
論文参考訳（メタデータ） (Tue, 26 Oct 2021 12:45:34 GMT)
生成系タスクに適したモデルの提案。同パラメータ数の比較でAbstract Summarization / CNNDMでPEGASUSを超える性能。
リポジトリはhttps://github.com/microsoft/unilm/tree/master/s2s-ft

MarkupLM: マークアップ情報を扱える言語モデル

MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding [35.4]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (Sat, 16 Oct 2021 09:17:28 GMT)
- テキストだけでなくマークアップ情報を併用して事前学習を行う言語モデルの提案。文書理解タスクで既存の強力なベースラインモデルを大幅に上回るとのこと。この手のデータは削除してしまうことも多いが情報があることは間違いない。自然な形で利用、性能向上に効果があるのは面白い。
- リポジトリはhttps://github.com/microsoft/unilm/tree/master/markuplmとのことだが現時点ではソース等はアップロードされていない。

T0: GPT-3の16分の1のサイズで強力なゼロショット性能

Multitask Prompted Training Enables Zero-Shot Task Generalization [70.1]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文参考訳（メタデータ） (Fri, 15 Oct 2021 17:08:57 GMT)
- PromptSourceという170以上のデータセットを用いて、T5をマルチタスクでfine tuning、9/11個のデータセットでGPT-3のパフォーマンスと一致 or 上回るスコア。大規模な言語モデルが苦手とするタスクを集めたBIG-bench（のサブセット）でもより大きな言語モデルよりも優れた性能を発揮。
- 25以上の組織から40人以上が関わっているとのことで本当にBigScience。
- リポジトリはhttps://github.com/bigscience-workshop/promptsource/、デモはhttps://huggingface.co/bigscience/T0pp、公式のtweet（https://twitter.com/BigscienceW/status/1450084553670938625）も参考になる。

SpeechT5: 音声情報向けT5

SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing [77.5]
本稿では,自己教師付き音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。 SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。
論文参考訳（メタデータ） (Thu, 14 Oct 2021 07:59:27 GMT)
- T5に似た事前学習モデルを音声向けに構築、ASR、TTS、VC、SIDなど複数のタスクで効果を確認とのこと。TextlessNLPのような流れに向けた一歩になるのだろうか。
  - ASR: Automatic Speech Recognition
  - TTS: Text-To-Speech
  - VC: Voice Conversion
  - SID: Speaker IDentiﬁcation

Dict-BERT: レアワードの定義を活用する事前学習モデル

Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.1]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文参考訳（メタデータ） (Wed, 13 Oct 2021 04:29:14 GMT)
- Wiktionaryを使用してレアなワードの定義をテキストの末尾に連結することで事前学習モデル（の下流タスクにおける）性能が向上したとの報告。実際に人間が辞書を引いているような動きであることが興味深い。

GEEP(GEnder Equality Prompt): 事前学習モデルのジェンダーバイアスを軽減する手法

Improving Gender Fairness of Pre-Trained Language Models without Catastrophic Forgetting [51.3]
本稿では,GEnder Equality Prompt (GEEP) という新しい手法を提案する。 GEEPは、凍結言語モデルに基づく性別バイアスを減らすための性別関連プロンプトを学習する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 11 Oct 2021 15:52:16 GMT)
- 事前学習モデルにおける職業を表す単語にはジェンダーバイアスがあること、例えば外科医は男性の職業とみなされることがある。この論文では「性中立データセット」を作成後に再学習するのではなく、元の事前学習モデルを凍結、学習可能パラメータ（職業を表すtoken embedding部分）を追加したうえでその部分だけを再学習することで性能劣化を避けながらジェンダーバイアスを軽減可能と報告している。

GPT-3を用いた教師無しのニューラル機械翻訳

Unsupervised Neural Machine Translation with Generative Language Models Only [19.7]
生成事前学習言語モデルから、最先端の教師なしニューラルネットワーク翻訳システムを導出する方法を示す。本手法は, few-shotの増幅, 蒸留, 逆翻訳の3段階からなる。
論文参考訳（メタデータ） (Mon, 11 Oct 2021 17:35:34 GMT)
- GPT-3を用いて情報を引き出しながら教師無しで機械翻訳モデルを構築するという論文。WMT14 English-FrenchでBLEU=42.1は相当高レベル。
- GPT-3は英語への翻訳性能が高く、英語からの翻訳性能が低い。ディスカッションに書かれている通り、バックトランスレーションでこの非対称性が埋まっていくと考えると納得感のある結果。
- 巨大モデルからうまく知識を引き出して高精度な機械翻訳モデルを作るというのは面白い。自然言語処理関連のモデル構築の常識が変わる気がする。今までは高品質対訳ペアデータを持っていることが競争優位性につながったが、これからは良いgigantic language modelを持つ事がそれにつながるのではないか。

M6-10T / Yuan 1.0 / Megatron-Turing NLG 530B 巨大な事前学習モデル

M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.2]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略”Pseudo-to-Real”を提案する。
論文参考訳（メタデータ）参考訳（全文） (Fri, 8 Oct 2021 04:24:51 GMT)
- 極めて巨大な言語モデルの学習方法を扱った論文。10日以内に512個のGPUだけで、非常に巨大な10Tパラメータのモデルを事前学習可能とのこと。

Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning [20.6]
GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
論文参考訳（メタデータ） (Sun, 10 Oct 2021 07:40:22 GMT)
- 中国の245Bパラメータの巨大なモデル。5TBの高品質な中国語のデータで学習（4095 PetaFlops-days。。。）し様々なタスクで優れた性能を確認。

NVIDIAとMicrosoftが「Megatron-Turing NLG 530B」という530Bパラメータ（GPT-3の3倍）のモデルを発表している。（NVIDIAの記事、Microsoftの記事）zero-shot、few-shotそれぞれで性能が改善しており巨大なモデル構築競争はしばらく続きそう。
- 記事にある「We live in a time where AI advancements are far outpacing Moore’s law.」という記載が興味深い。

BadPre: 事前学習モデルでのバックドア攻撃

BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation Models [25.9]
我々は,訓練済みNLPモデルに対する最初のタスク非依存のバックドアアタックを提案する。事前訓練されたモデルにバックドアを埋め込む際に、下流タスクに関する事前情報を必要としない。実験結果から,本手法は,幅広い下流NLPタスクを効果的かつステルスな方法で攻撃できる可能性が示唆された。
論文参考訳（メタデータ） (Wed, 6 Oct 2021 02:48:58 GMT)
- 事前学習モデルを活用する形のNLPが流行しているが、その事前学習モデルにバックドアを仕込むことが可能という報告。下流タスクによらず特定ワードでの性能を著しく劣化されることが可能。
  - 論文中の図に出てくるBERTが恐ろしい。

ニューラル機械翻訳におけるPre-TrainingとBack-Translation

On the Complementarity between Pre-Training and Back-Translation for Neural Machine Translation [63.9]
事前学習(PT)と後方翻訳(BT)は単言語データを利用するためのシンプルで強力な方法である。本稿では,PTとBTの相補性について検討する。我々は、WMT16英語-ルーマニア語と英語-ロシア語ベンチマークで最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (Tue, 5 Oct 2021 04:01:36 GMT)
- Pre-Trainingはエンコーダにとってより有益であり、Back-Translationはデコーダを主に改善するとの報告。両社は相互補完可能でTagged BTはより有益であるとのこと。

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31