- AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.4]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。 本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。 当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (Wed, 10 Sep 2025 16:46:11 GMT) - 様々な強化学習のアプローチに対応したフレームワーク
- プロジェクトサイトはAgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning、リポジトリはGitHub – WooooDyy/AgentGym-RL: Code and implementations for the paper “AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning” by Zhiheng Xi et al.
タグ: post-training
A Survey on Post-training of Large Language Models
- A Survey on Post-training of Large Language Models [185.5]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。 これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。 本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (Sat, 08 Mar 2025 05:41:42 GMT) - Fugu-MT 論文翻訳(概要): LLM Post-Training: A Deep Dive into Reasoning Large Language Modelsとは別チームによるPost Traningのサーベイ
- 「This paper offers the first exhaustive survey of Post-training Language Models (PoLMs), systematically tracing their trajectory from ChatGPT’s alignment origins in 2018 to DeepSeek-R1’s reasoning milestone in 2025, and affirming their transformative influence on reasoning precision, domain adaptability, and ethical integrity.」とある通り、最新の情報を含むサーベイで57ページととても包括的。
LLM Post-Training: A Deep Dive into Reasoning Large Language Models
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.1]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。 ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (Fri, 28 Feb 2025 18:59:54 GMT) - LRMでも注目されるPost training関連のサーベイ、Fine-tuning, Reinforcement Learning, Test-time Scalingが大きなキーワード。
- リポジトリはGitHub – mbzuai-oryx/Awesome-LLM-Post-training: Awesome Reasoning LLM Tutorial/Survey/Guide