2025年9月17日 – arXiv最新論文の紹介

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.4]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文参考訳（メタデータ） (Wed, 10 Sep 2025 16:46:11 GMT)
様々な強化学習のアプローチに対応したフレームワーク
プロジェクトサイトはAgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning、リポジトリはGitHub – WooooDyy/AgentGym-RL: Code and implementations for the paper “AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning” by Zhiheng Xi et al.

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.3]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文参考訳（メタデータ） (Tue, 02 Sep 2025 17:46:26 GMT)
「Agentic Reinforcement Learning (Agentic RL) refers to a paradigm in which LLMs, rather than being treated as static conditional generators optimized for single-turn output alignment or benchmark performance, are conceptualized as learnable policies embedded within sequential decision-making loops, where RL endows them with autonomous agentic capabilities, such as planning, reasoning, tool use, memory maintenance, and self-reflection, enabling the emergence of long-horizon cognitive and interactive behaviors in partially observable, dynamic environments.」と定義されるAgenticな強化学習のサーベイ。最近流行りのアプローチだが様々な種類がある。。
リポジトリはGitHub – xhyumiracle/Awesome-AgenticLLM-RL-Papers

AI Agents for Web Testing: A Case Study in the Wild [20.7]
本稿では,AIエージェントベースのWebテスティングフレームワークであるWebProberを紹介する。 URLを与えられたWebProberは、Webサイトを自律的に探索し、実際のユーザインタラクションをシミュレートし、バグとユーザビリティの問題を特定し、人間が読めるレポートを生成する。 120の学術的個人Webサイトのケーススタディを通じてWebProberを評価し,29のユーザビリティ問題を明らかにした。
論文参考訳（メタデータ） (Fri, 05 Sep 2025 15:57:16 GMT)
WebテストのためのAIエージェント
リポジトリはGitHub – TianyiPeng/WebProber