Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling 

  • Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling [18.2]
    強力な言語モデル(LM)を用いた高品質な合成データの学習は、LMの推論性能を向上させるための一般的な戦略である。 より強力なSEモデルと弱いが安価なWCモデルによる合成データ生成のトレードオフについて検討する。
    論文  参考訳(メタデータ)   (Thu, 29 Aug 2024 17:32:35 GMT)
  • 合成データ生成におけるstronger but more expensive (SE) model と a weaker but cheaper (WC) modelの比較。「Our results indicate that it is more compute-optimal to sample from a WC model as opposed to the common-practice of sampling from a SE model.」とのこと。
  • 「3) a new paradigm we introduce called Weak-to-Strong Improvement, where a strong student LM improves using synthetic data from a weaker teacher LM.」という設定、および、意外なことにこれが有効である点も興味深い。


メールアドレスが公開されることはありません。 が付いている欄は必須項目です