大規模事前学習 – ページ 6 – arXiv最新論文の紹介

事前学習モデルを活用した文書生成のサーベイ

A Survey of Pretrained Language Models Based Text Generation [97.6]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。 PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文参考訳（メタデータ） (Fri, 14 Jan 2022 01:44:58 GMT)
- PLM利用のテキスト生成に関するサーベイ、知識ベースQA、テキスト生成のサーベイ – arXiv最新論文の紹介 (devneko.jp)と同じチーム、同様のトピックではあるが、こちらの方がより詳細。分類も参考になる。

ERNIE 3.0 Titan: the largest Chinese dense pre-trained model

ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [50.0]
GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。 ERNIE 3.0のスケールアップ性能を調べるため、PaddlePaddleプラットフォーム上で最大2600億のパラメータを持つERNIE 3.0 Titanをトレーニング、様々なNLPタスクにおいて最先端のモデルよりも優れていた。
論文参考訳（メタデータ） (Thu, 23 Dec 2021 17:35:48 GMT)
- Baiduの巨大言語モデル、68のNLPデータセットでSoTAとのこと。
- 学習をGPUとAscend 910を併用しヘテロジニアスな構成で行う、推論もNvidia A100-SXM4(40GB)では不可能で分散実施とインフラ部分も興味津々
- 一度に複数の生徒をトレーニング可能なOnline Distillation Frameworkを提案しているのも興味深い

Mixtures of Expertsと高密度モデルの比較

Efficient Large Scale Language Modeling with Mixtures of Experts [61.5]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文参考訳（メタデータ） (Mon, 20 Dec 2021 17:05:11 GMT)
- 最近よく見る疎なモデル（Mixtures of Experts）と密なモデルを比較、タスクやドメインにもよるが疎なモデルは4分の1の計算量で密なモデルと同等の性能を発揮できるのでは？としている。
- MoEモデル(1.1Tパラメータ)と計算量的に等価な密モデル(6.7Bパラメータ)は一貫して優れていて、エネルギー消費を減らすためのアプローチとしても有効とのこと。
- リポジトリはfairseq/examples/moe_lm at main · pytorch/fairseq · GitHub

XGLM(multilingual Generative Language Models): 多言語モデルでのFew-shot

Few-shot Learning with Multilingual Language Models [66.5]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文参考訳（メタデータ） (Mon, 20 Dec 2021 16:52:35 GMT)
- 多言語対応モデルを新たに構築、優れた性能を発揮。非常に広範なデータで検証を行っており興味深い結果となっている。
- 日本語のデータも相応に入っており対応しているものと思われる。が、評価に使えるデータセットがXWinograd、PAWS-Xなど少なく状況が判別しにくい（モデルは公開されているようなので色々試してみるしかなさそう）
- リポジトリはfairseq/examples/xglm at main · pytorch/fairseq · GitHub

ViT-BERT: 言語と画像の統一的基礎モデル

Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text [93.1]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文参考訳（メタデータ） (Tue, 14 Dec 2021 00:20:55 GMT)
- 画像・言語の両方を取り扱える事前学習モデル構築手法の提案。トークン化と出力部分は個別だが主要な部分は共通という構造。学習に用いる画像とテキストは対となるデータではない。画像のみのタスクCIFAR-10/100・ImageNet、自然言語のみのタスクGLUE双方で優れた結果。

GLIP(Grounded Language-Image Pre-training): 言語-画像の事前学習モデル

Grounded Language-Image Pre-training [107.7]
本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。実験では、3Mの人間アノテーションと2400万のウェブクローリング画像テキストペアを含む2700万のグラウンドデータに対してGLIPを事前トレーニングした。学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。
論文参考訳（メタデータ） (Tue, 7 Dec 2021 17:47:50 GMT)
- オブジェクト検出とフレーズ接地に対する事前学習モデルの提案。COCOとLVISにおいてゼロショットでも多くの教師有りベースラインを上回り、fine tuning後ではSoTAとのこと。prompt tuning等もできるらしく、コードとモデルも公開予定とのことで期待大。
  - ただ、COCOはFlorence-CoSwin-Hの方が上に見える
- リポジトリはGitHub – microsoft/GLIP: Grounded Language-Image Pre-training

FLAVA(Foundational Language And Vision Alignment): 言語と画像を結びつける基礎モデル

FLAVA: A Foundational Language And Vision Alignment Model [63.2]
最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクにおいて、印象的なパフォーマンスを示す。
論文参考訳（メタデータ）参考訳（全文） (Wed, 8 Dec 2021 18:59:16 GMT)
- 公開データセットを用いて言語/画像の事前学習モデルを構築。類似モデルよりも少ないデータ量であるが優れたパフォーマンスを達成とのこと。

T-NLRv5, SS-MoE, Gopher, GLaM: Microsoft, Google, DeepMindの巨大言語モデル

ここ最近は巨大言語モデルの話題が多かった。

12/3 Microsoft: Efficiently and effectively scaling up language model pretraining for best language representation model on GLUE and SuperGLUE – Microsoft Research
- Microsoftチューリングモデル（T-NLRv5）が、SuperGLUEとGLUEでSoTAを報告。
- MNLI、RTEで初めて人間のスコアを超えたとのこと。

12/8 Google: SS-MoE（[2101.03961] Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity (arxiv.org)ベース、Mixture-of-Expertで269B パラメータ）がSuperGLUEのSoTAを更新

12/8 DeepMind: Scaling Language Models: Methods, Analysis & Insights from Training Gopher
- DeepMindが280Bパラメータの巨大言語モデルGopherを発表
- 使用したデータはMassiveTextと呼ばれる235億文書、10.5TBの英語のテキストデータセット。WEBページ、ニュース記事、githubのコードなど様々なドメインを含む。
- 他のモデルと比較可能な124タスク中100タスクでSoTA

12/9 Google: Google AI Blog: More Efficient In-Context Learning with GLaM (googleblog.com)
- Googleが1.2Tパラメータのスパースな言語モデルを構築。GLaMはGeneralist Language Modelの略。
- 使用データは1.6兆トークン、WEBページのデータを書籍・Wikipedia（高品質データ）で作成したフィルタを用いて高品質化。
- 8つのNLGタスク、21のNLUタスクで評価、denseなモデルであるGPT-3と比べてゼロショットでは80%、ワンショットでは90%で同等以上結果と報告。
  - NLG: Natural Language Generation / テキスト生成
  - NLU: Natural Language Understanding / テキスト理解
  - ゼロショット、ワンショットともに24/29で同等以上に見えるが算出方法が分からない・・・
- 疎なモデルと密なモデルを比較すると、疎なモデルの方が少ないデータで優れた性能を発揮できるとのこと。最後にGlaMは電力効率も優れていると主張。

この先にAGIがあっても不思議ではない感覚がある。

Transformer + scratchpad: 事前学習モデル＋スクラッチパッドを用いた処理

Show Your Work: Scratchpads for Intermediate Computation with Language Models [41.6]
大規模な事前訓練された言語モデルは、”1回のパスで”実行できるタスクで驚くほどうまく機能します。これらのモデルが「ステップ・バイ・ステップ」の実行を依頼された場合、複雑なマルチステップ計算を行うことができることがわかった。特に、中間計算ステップを「スクラッチパッド」に出力するように指示することで、トランスフォーマーにマルチステップ計算をするよう訓練する。
論文参考訳（メタデータ） (Tue, 30 Nov 2021 21:32:46 GMT)
- 中間ステップをスクラッチパッド（バッファ）に出力しながら処理することで、これまで苦手とされていた計算やプログラム実行のタスクで優れた性能を発揮できたとのこと。
  - 人がやる事っぽく面白い結果。

Point-BERT: 点群処理のためのBERT

Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling [104.8]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文参考訳（メタデータ） (Mon, 29 Nov 2021 18:59:03 GMT)
- MPM（Masked Point Modeling)というBERTにインスパイアされたタスクで事前学習、ModelNet40で優れた性能を発揮とのこと。
  - 点群にも進出と、BERTスタイルの処理は汎用性があるのだろうか。。
- リポジトリはGitHub – lulutang0608/Point-BERT: Pre-Training 3D Point Cloud Transformers with Masked Point Modeling

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31