Rethinking Expert Trajectory Utilization in LLM Post-training

  • Rethinking Expert Trajectory Utilization in LLM Post-training [35.0]
    我々は,この景観を基盤として,プラスチック・シーリング・フレームワークを提案する。 逐次SFT-then-RLパイプラインを優れた標準として確立する。 本研究は,専門家軌道から抽出した値の最大化のための実用的なガイドラインを提供する。
    論文  参考訳(メタデータ)   (Fri, 12 Dec 2025 11:13:00 GMT)
  • Post trainingで一般的に用いられるSupervised Fine-Tuning (SFT) とRe-inforcement Learning (RL)の組み合わせに関し「1) The sequential SFT-then-RL pipeline outperforms alternative paradigms in approaching the post-training perfor- mance ceiling. (2) Within this pipeline, RL should be initiated at SFT saturation, a point reliably predicted by validation loss minimization. (3) SFT data scale primarily determines the performance ceiling, and trajectory difficulty further optimizes the ceiling when data is limited.」と報告。
  • リポジトリはGitHub – LINs-lab/RETU: [Preprint] Rethinking Expert Trajectory Utilization in LLM Post-training

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

A Survey on Post-training of Large Language Models 

  • A Survey on Post-training of Large Language Models [185.5]
    大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。 これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。 本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
    論文  参考訳(メタデータ)   (Sat, 08 Mar 2025 05:41:42 GMT)
  • Fugu-MT 論文翻訳(概要): LLM Post-Training: A Deep Dive into Reasoning Large Language Modelsとは別チームによるPost Traningのサーベイ
  • 「This paper offers the first exhaustive survey of Post-training Language Models (PoLMs), systematically tracing their trajectory from ChatGPT’s alignment origins in 2018 to DeepSeek-R1’s reasoning milestone in 2025, and affirming their transformative influence on reasoning precision, domain adaptability, and ethical integrity.」とある通り、最新の情報を含むサーベイで57ページととても包括的。

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

  • LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.1]
    大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。 ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
    論文  参考訳(メタデータ)   (Fri, 28 Feb 2025 18:59:54 GMT)
  • LRMでも注目されるPost training関連のサーベイ、Fine-tuning, Reinforcement Learning, Test-time Scalingが大きなキーワード。
  • リポジトリはGitHub – mbzuai-oryx/Awesome-LLM-Post-training: Awesome Reasoning LLM Tutorial/Survey/Guide