Pre-training under infinite compute

  • Pre-training under infinite compute [87.0]
    本研究では、エポック数の増加とパラメータ数の増加に対するデータ制約によるアプローチが、最終的には過度に適合することを示す。 独立に訓練されたモデルのアンサンブルは、正規化レシピよりもはるかに低損失の漸近を達成できる。 この結果から,計算量の多い将来において,よりデータ効率の高い事前学習が実現できることが示唆された。
    論文  参考訳(メタデータ)   (Thu, 18 Sep 2025 09:36:23 GMT)
  • 「Our best intervention combining epoching, regularization, parameter scaling, and ensemble scaling achieves an asymptote at 200M tokens using 5.17× less data than our baseline, and our data scaling laws predict that this improvement persists at higher token budgets. We find that our data efficiency gains can be realized at much smaller parameter counts as we can distill an ensemble into a student model that is 8× smaller and retains 83% of the ensembling benefit.」とデータ枯渇の懸念に対する回答になりそうな結果。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です