Guided Self-Evolving LLMs with Minimal Human Supervision
Guided Self-Evolving LLMs with Minimal Human Supervision [53.1] 無誘導の自己進化システムは、しばしば訓練として素早く、または劣化する。 R-Fewはガイド付きセルフプレイチャレンジャー(Self-Play Challenger)買収フレームワークで、コンテキスト内接地と混合トレーニングを通じて、軽量な人間の監視を取り入れている。 R-Fewは、数学と一般的な推論ベンチマークで一貫した反復的な改善を実現している。 論文参考訳(メタデータ) (Tue, 02 Dec 2025 07:06:11 GMT)
「we introduce R-FEW, a guided Self-Play Challenger–Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic ques- tion generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements.」と最近よく見る共同進化的なフレームワークの提案。とても流行っていて有効なアプローチなのだと思う。