post-training – arXiv最新論文の紹介

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.4]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文参考訳（メタデータ） (Wed, 10 Sep 2025 16:46:11 GMT)
様々な強化学習のアプローチに対応したフレームワーク
プロジェクトサイトはAgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning、リポジトリはGitHub – WooooDyy/AgentGym-RL: Code and implementations for the paper “AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning” by Zhiheng Xi et al.

A Survey on Post-training of Large Language Models [185.5]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文参考訳（メタデータ） (Sat, 08 Mar 2025 05:41:42 GMT)
Fugu-MT 論文翻訳(概要): LLM Post-Training: A Deep Dive into Reasoning Large Language Modelsとは別チームによるPost Traningのサーベイ
「This paper offers the first exhaustive survey of Post-training Language Models (PoLMs), systematically tracing their trajectory from ChatGPT’s alignment origins in 2018 to DeepSeek-R1’s reasoning milestone in 2025, and affirming their transformative influence on reasoning precision, domain adaptability, and ethical integrity.」とある通り、最新の情報を含むサーベイで57ページととても包括的。

LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.1]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (Fri, 28 Feb 2025 18:59:54 GMT)
LRMでも注目されるPost training関連のサーベイ、Fine-tuning, Reinforcement Learning, Test-time Scalingが大きなキーワード。
リポジトリはGitHub – mbzuai-oryx/Awesome-LLM-Post-training: Awesome Reasoning LLM Tutorial/Survey/Guide