コンテンツへスキップ
- The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.3]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。 本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (Tue, 02 Sep 2025 17:46:26 GMT)
- 「Agentic Reinforcement Learning (Agentic RL) refers to a paradigm in which LLMs, rather than being treated as static conditional generators optimized for single-turn output alignment or benchmark performance, are conceptualized as learnable policies embedded within sequential decision-making loops, where RL endows them with autonomous agentic capabilities, such as planning, reasoning, tool use, memory maintenance, and self-reflection, enabling the emergence of long-horizon cognitive and interactive behaviors in partially observable, dynamic environments.」と定義されるAgenticな強化学習のサーベイ。最近流行りのアプローチだが様々な種類がある。。
- リポジトリはGitHub – xhyumiracle/Awesome-AgenticLLM-RL-Papers
- AI Agents for Web Testing: A Case Study in the Wild [20.7]
本稿では,AIエージェントベースのWebテスティングフレームワークであるWebProberを紹介する。 URLを与えられたWebProberは、Webサイトを自律的に探索し、実際のユーザインタラクションをシミュレートし、バグとユーザビリティの問題を特定し、人間が読めるレポートを生成する。 120の学術的個人Webサイトのケーススタディを通じてWebProberを評価し,29のユーザビリティ問題を明らかにした。
論文 参考訳(メタデータ) (Fri, 05 Sep 2025 15:57:16 GMT)
- WebテストのためのAIエージェント
- リポジトリはGitHub – TianyiPeng/WebProber