Language Self-Play For Data-Free Training [37.2] 大規模言語モデル(LLM)は,近年,大規模,高品質なトレーニングデータ,強化学習によって急速に進歩している。 しかし、この進歩は根本的なボトルネックに直面している。 我々は、追加データなしでモデルの改善を可能にすることで、この依存を取り除く強化学習手法を提案する。 論文参考訳(メタデータ) (Tue, 09 Sep 2025 05:51:34 GMT)
「Language Self-Play agent operates under two modes: Challenger and Solver. Challenger generates instructions that Solver follows. While Solver learns to improve its responses to the prompts, Challenger learns to make them more difficult. Both modes are instantiated by one model and thus enable perpetual training on increasingly higher-quality self-generated data.」というLanguage Self-Play (LSP)フレームワークの提案。