Rethinking Expert Trajectory Utilization in LLM Post-training
Rethinking Expert Trajectory Utilization in LLM Post-training [35.0] 我々は,この景観を基盤として,プラスチック・シーリング・フレームワークを提案する。 逐次SFT-then-RLパイプラインを優れた標準として確立する。 本研究は,専門家軌道から抽出した値の最大化のための実用的なガイドラインを提供する。 論文参考訳(メタデータ) (Fri, 12 Dec 2025 11:13:00 GMT)
Post trainingで一般的に用いられるSupervised Fine-Tuning (SFT) とRe-inforcement Learning (RL)の組み合わせに関し「1) The sequential SFT-then-RL pipeline outperforms alternative paradigms in approaching the post-training perfor- mance ceiling. (2) Within this pipeline, RL should be initiated at SFT saturation, a point reliably predicted by validation loss minimization. (3) SFT data scale primarily determines the performance ceiling, and trajectory difficulty further optimizes the ceiling when data is limited.」と報告。