事前学習モデル – arXiv最新論文の紹介

Language Models Improve When Pretraining Data Matches Target Tasks

Language Models Improve When Pretraining Data Matches Target Tasks [8.9]
BETRは、ベンチマークトレーニングの例と類似性に基づいて、事前学習した文書を選択する方法である。データ選択の方法は10^19から10^22FLOPにまたがる500以上のモデルをトレーニングし、それらをスケーリング法則に適合させることで比較する。 BETRはDCLM-Baseline上で2.1倍の計算乗算を実現し,全スケールで10タスク中9タスクの性能向上を実現している。
論文参考訳（メタデータ） (Wed, 16 Jul 2025 17:59:45 GMT)
「We tested whether language models improve when pretraining data matches target tasks. This hypothesis seems almost self-evident: training on relevant data should naturally improve relevant capabilities.」はですよねーとして、「Although explicit targeting might seem at odds with pretraining’s traditional emphasis on generality, our scaling analysis offers a reconciling insight: as compute increases, optimal filtering becomes predictably less strict. Smaller models perform best when trained on narrowly filtered datasets, while larger models benefit from more diverse data.」まで分析すると興味深い。
論文にも書かれていたが、多言語でどうなるかはとても興味がある。

Expanding Pretrained Models to Thousands More Languages via Lexicon-based Adaptation [133.7]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。 3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文参考訳（メタデータ）参考訳（全文） (Thu, 17 Mar 2022 16:48:22 GMT)
- リソースの少ない言語への自然言語処理適用に関する報告。世界に存在する約7000言語のうちmBERTは1%程度、Wikipedia/Common Crawlは4%程度しかカバーできていない（聖書でも23%）。この論文では70%をカバー可能なバイリンガル辞書や語彙集を用いて低リソースな言語の自然言語処理を行えるとのこと。
- リポジトリはGitHub – cindyxinyiwang/expand-via-lexicon-based-adaptation: Code for ACL 2022 paper “Expanding Pretrained Models to Thousands More Languages via Lexicon-based Adaptation”

NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better [98.6]
訓練済み言語モデル(PLM)の微調整は、下流タスクの成功に不可欠である。 PLMは、事前訓練の信号に過度に適合する危険性があり、下流のタスクと事前訓練のタスクの間にはギャップがある。 NoisyTuneは、微調整前にPLMのパラメータにいくつかのノイズを加えることで、下流タスクにおけるPLMの微調整を支援する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 24 Feb 2022 11:08:02 GMT)
- 事前学習モデルのパラメータにノイズを加えるだけというシンプルな手法でfine tuning後の性能を向上させるという報告。ほんまかいなと思いつつ、一貫して性能が上がっているのが凄い。

Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners [23.2]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。小さな言語モデルを、プロンプトエンジニアリングなしで、より優れたfew-shotの学習者に変換することができる。標準NLPタスクの包括的な評価は、提案手法がより優れたFewショット性能を実現することを示す。
論文参考訳（メタデータ） (Mon, 30 Aug 2021 12:29:25 GMT)
- 言語モデルに対してfine-tuningではなくfew-shotのアプローチを取り入れられるようにして良い性能を出したとの報告。（プロンプトの）テンプレートTokenとラベルToken相当のパラメータを連続空間で最適化することが特徴とのこと。入力側を連続空間で最適化して良いプロンプト（相当の入力）を探るアプローチ（と思われる）。「the pseudo tokens in the prompt template must be co-dependent with each other」とある通り単純にやってもうまくいかなさそうな気がするが、提案されているTraining Objectivesが良く機能しているよう。
- GPT Understands, Too で提案されたP-tuningと似ているが、こちらは外部モデル（P-tuningの場合はLSTM）が不要。