SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model

  • SmolLM2: When Smol Goes Big — Data-Centric Training of a Small Language Model [33.9]
    SmolLM2は、最先端の”小” (170億のパラメータ) 言語モデルである。 我々はSmolLM2を1兆のトークンでオーバートレーニングし、Webテキストと特殊な算数、コード、命令追従データとを混合する多段階のトレーニングプロセスを用いた。 我々は、SmolLM2がQwen2.5-1.5BやLlama3.2-1Bなど、最近の小さなLMよりも優れていることを示した。
    論文  参考訳(メタデータ)   (Tue, 04 Feb 2025 21:43:16 GMT)
  • HuggingfaceによるSLM、「SmolLM2 advances the state-of-the-art for open small LMs through a combination of careful dataset curation and multistage training.」とのこと。「SmolLM2 outperforms other recent small LMs including Qwen2.5-1.5B and Llama3.2-1B.」を主張
  • リポジトリはSmolLM2 – a HuggingFaceTB Collection

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です