WideSearch: Benchmarking Agentic Broad Info-Seeking

  • WideSearch: Benchmarking Agentic Broad Info-Seeking [22.3]
    大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介する。 ベンチマークでは、実際のユーザクエリに基づいて、15以上のさまざまなドメインから200の質問を手作業でキュレートする。 我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
    論文  参考訳(メタデータ)   (Mon, 11 Aug 2025 14:03:09 GMT)
  • LLM- Agent 、特に情報収集タスクに関するベンチマークの提案。OpenAI o3の清野が高いがKimi K2も良い性能。
  • プロジェクトサイトはWideSearch: Benchmarking Agentic Broad Info-Seeking