- Toward Training Superintelligent Software Agents through Self-Play SWE-RL [66.1]
セルフプレイSWE-RLは、超知能ソフトウェアエージェントのトレーニングパラダイムに向けた第一歩である。 当社のアプローチでは,ソースコードとインストール済みの依存関係を備えたサンドボックスリポジトリへのアクセスのみを必要としています。 我々の成果は、早い段階で、エージェントが現実世界のソフトウェアリポジトリから広範囲にわたる学習経験を自律的に収集する道のりを示唆している。
論文 参考訳(メタデータ) (Sun, 21 Dec 2025 00:49:40 GMT) - 「The core idea of Self-play SWE-RL (SSR) is to allow LLM agents to self-improve through an iterative cycle of solving self-generated bugs and creating more complex challenges. As shown in Figure 1, the same LLM policy is divided into two roles: a bug-injection agent and a bug-solving agent.」と対戦型の自己改善フレームワーク。GitHub – facebookresearch/cwm: Research code artifacts for Code World Model (CWM) including inference tools, reproducibility, and documentation.をベースモデルとして効果を確認とのこと。