Scaling Laws of Synthetic Data for Language Models

  • Scaling Laws of Synthetic Data for Language Models [132.7]
    プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。 提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
    論文  参考訳(メタデータ)   (Tue, 25 Mar 2025 11:07:12 GMT)
  • 合成データのScaling lawに関する報告。高品質なデータ生成フレームワークSYnathLLMを前提に「Key findings from our extensive mathematical experiments on SYNTHLLM include: (1) SYNTHLLM generates synthetic data that reliably adheres to the rectified scaling law across various model sizes; (2) Performance improvements plateau near 300B tokens; and (3) Larger models approach optimal performance with fewer training tokens.」と合成データの有効性を示唆する結論になっている。
  • プロジェクトサイトはAdvancing AI for Humanity

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です