Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond
Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond [14.4] 私たちはまず、長いCOT能力を欠いたモデルから始まる、長いCOTモデルをスクラッチからトレーニングすることに重点を置いています。 Qwen2.5-32B-Instructから2段階のSFTとセミオン・ポリティクスDPOからなるカリキュラムトレーニングレシピを用いて、我々のモデルであるLight-R1-32Bをトレーニングする。 AIME24と25のスコアはそれぞれ74.0と60.2であり、Light-R1-14B-DSは32BモデルとDeepSeek-R1-Distill-Llama-70Bを抜いた。 論文参考訳(メタデータ) (Thu, 13 Mar 2025 15:29:22 GMT)
2ステージのSFT+DPO Optimization(+ model merge)で構築したモデル。「High-Quality Data is All You Need」の通りデータセット側のパイプラインも凝っている。他の研究成果でも近いことが指摘されているが「Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains.」は興味深い。