Self-Challenging Language Model Agents [98.6] 本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。 このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。 論文参考訳(メタデータ) (Mon, 02 Jun 2025 14:23:33 GMT)
「we present the Self-Challenging Agent (SCA) method for self-improvement of general multi-turn tool-use LLM agents. SCA can create its own tasks to challenge itself and learn from them. To do this, it utilizes the Code-as-Task (CaT) formulation which ensures high quality synthetic tasks. Through RL on these self-generated synthetic tasks, SCA can be used to train a Llama-3.1-8B model to achieve an average relative success rate improvement of 95.8% on existing test tasks across four different multi-turn tool-use environments.」とのこと。。。AGIに近づいている感のある未来を感じる報告。(「While SCA serves as a preliminary step, there remains many research questions for building an effective self-improvement flywheel for general LLM agents.」とあるとおり、実態上はまだいろいろ壁はあるのだろうが)