- Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling [18.2]
強力な言語モデル(LM)を用いた高品質な合成データの学習は、LMの推論性能を向上させるための一般的な戦略である。 より強力なSEモデルと弱いが安価なWCモデルによる合成データ生成のトレードオフについて検討する。
論文 参考訳(メタデータ) (Thu, 29 Aug 2024 17:32:35 GMT) - 合成データ生成におけるstronger but more expensive (SE) model と a weaker but cheaper (WC) modelの比較。「Our results indicate that it is more compute-optimal to sample from a WC model as opposed to the common-practice of sampling from a SE model.」とのこと。
- 「3) a new paradigm we introduce called Weak-to-Strong Improvement, where a strong student LM improves using synthetic data from a weaker teacher LM.」という設定、および、意外なことにこれが有効である点も興味深い。
タグ: SLM
Phi-3 small/medium, Mistral 7B v0.3, Aya 23 8B/35B
先週はMS Buildで発表されたPhi small/medium/visionのほか、オープンなLLMの発表が多かった。
- マイクロソフトBuild 2024ニュースブック (microsoft.com)
- mistralai/Mistral-7B-Instruct-v0.3 · Hugging Face
- Aya | Cohere For AI
MSのPhiはMITライセンス、Mistral v0.3はApache-2ライセンスとオープンなモデル、CohereのAya 23はCC-BY-NCと商用利用は不可であるがこのような強力なモデルが公開されるのはありがたい。
別Blogで検証を行った(Mistral 7B v0.3, Phi-3 small/medium, Aya 23 8Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp))感じ日本語でもタスクによっては優れた性能を発揮できそう。