Dr. Zero: Self-Evolving Search Agents without Training Data
Dr. Zero: Self-Evolving Search Agents without Training Data [34.9] 我々は,検索エージェントがトレーニングデータなしで効果的に自己開発できるフレームワークであるDr. Zeroを紹介した。 特に,提案者が多様な質問を生成する自己進化フィードバックループを設計し,同じベースモデルから問題解決者を訓練する。 トレーニング効率を向上させるため、ホップ群相対ポリシー最適化(HRPO)も導入する。 論文参考訳(メタデータ) (Sun, 11 Jan 2026 20:27:55 GMT)
「We introduced Dr. Zero, a data-free self-evolution framework that enhances the reasoning and search capabilities of language agents. By utilizing an iterative proposer-solver training paradigm, Dr. Zero autonomously generates diverse and increasingly challenging open-domain questions without relying on training data. In addition, the proposed HRPO effectively addresses the computational bottlenecks of multi-turn tool use, enabling efficient training by clustering structurally similar queries to estimate advantages.」とproposerとsolverを分けるアプローチ。