Language Models Improve When Pretraining Data Matches Target Tasks 

  • Language Models Improve When Pretraining Data Matches Target Tasks [8.9]
    BETRは、ベンチマークトレーニングの例と類似性に基づいて、事前学習した文書を選択する方法である。 データ選択の方法は10^19から10^22FLOPにまたがる500以上のモデルをトレーニングし、それらをスケーリング法則に適合させることで比較する。 BETRはDCLM-Baseline上で2.1倍の計算乗算を実現し,全スケールで10タスク中9タスクの性能向上を実現している。
    論文  参考訳(メタデータ)   (Wed, 16 Jul 2025 17:59:45 GMT)
  • 「We tested whether language models improve when pretraining data matches target tasks. This hypothesis seems almost self-evident: training on relevant data should naturally improve relevant capabilities.」はですよねーとして、「Although explicit targeting might seem at odds with pretraining’s traditional emphasis on generality, our scaling analysis offers a reconciling insight: as compute increases, optimal filtering becomes predictably less strict. Smaller models perform best when trained on narrowly filtered datasets, while larger models benefit from more diverse data.」まで分析すると興味深い。
  • 論文にも書かれていたが、多言語でどうなるかはとても興味がある。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です