Dr. Zero: Self-Evolving Search Agents without Training Data

  • Dr. Zero: Self-Evolving Search Agents without Training Data [34.9]
    我々は,検索エージェントがトレーニングデータなしで効果的に自己開発できるフレームワークであるDr. Zeroを紹介した。 特に,提案者が多様な質問を生成する自己進化フィードバックループを設計し,同じベースモデルから問題解決者を訓練する。 トレーニング効率を向上させるため、ホップ群相対ポリシー最適化(HRPO)も導入する。
    論文  参考訳(メタデータ)   (Sun, 11 Jan 2026 20:27:55 GMT)
  • 「We introduced Dr. Zero, a data-free self-evolution framework that enhances the reasoning and search capabilities of language agents. By utilizing an iterative proposer-solver training paradigm, Dr. Zero autonomously generates diverse and increasingly challenging open-domain questions without relying on training data. In addition, the proposed HRPO effectively addresses the computational bottlenecks of multi-turn tool use, enabling efficient training by clustering structurally similar queries to estimate advantages.」とproposerとsolverを分けるアプローチ。
  • リポジトリはGitHub – facebookresearch/drzero: Dr. Zero Self-Evolving Search Agents without Training Data

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です