Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling [18.2] 強力な言語モデル(LM)を用いた高品質な合成データの学習は、LMの推論性能を向上させるための一般的な戦略である。 より強力なSEモデルと弱いが安価なWCモデルによる合成データ生成のトレードオフについて検討する。 論文参考訳(メタデータ) (Thu, 29 Aug 2024 17:32:35 GMT)
合成データ生成におけるstronger but more expensive (SE) model と a weaker but cheaper (WC) modelの比較。「Our results indicate that it is more compute-optimal to sample from a WC model as opposed to the common-practice of sampling from a SE model.」とのこと。
「3) a new paradigm we introduce called Weak-to-Strong Improvement, where a strong student LM improves using synthetic data from a weaker teacher LM.」という設定、および、意外なことにこれが有効である点も興味深い。