SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.5] ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。 本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。 RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。 論文参考訳(メタデータ) (Tue, 28 Jan 2025 18:59:44 GMT)
まさに今知りたい情報という感じの論文、「Through extensive experiments on the GeneralPoints and V-IRL tasks, we demonstrated that RL exhibits superior performance in learning generalizable knowledge, while SFT tends to merely memorize the training data, across both the rule and visual variations.」とのこと。
上記に加え、「SFT is necessary for RL training when the backbone model does not follow instructions.」はとても興味深い。基礎性能によって効果的なトレーニング方針が異なるというのは他の事例でもよく見られる印象があり(直感的にもそうだろうとも思い)、このあたりは重要なノウハウでありそう。