- BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining [13.2]
プレトレーニングのための高品質な合成データを生成する合成データ生成フレームワークであるBeyondWebを紹介した。 BeyondWebは、従来のWebスケールデータセットの機能を大幅に拡張した。 オープンなWebデータよりも最大7.7倍、Nemotron-Synthより2.7倍高速なトレーニングを提供する。
論文 参考訳(メタデータ) (Thu, 14 Aug 2025 17:55:47 GMT) - 様々な観点からの評価を行っているが「The data wall is not unsurpassable; it can be broken through strategic synthetic data generation.」という主張に驚き