DeepReseach – arXiv最新論文の紹介

WideSearch: Benchmarking Agentic Broad Info-Seeking [22.3]
大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介する。ベンチマークでは、実際のユーザクエリに基づいて、15以上のさまざまなドメインから200の質問を手作業でキュレートする。我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
論文参考訳（メタデータ） (Mon, 11 Aug 2025 14:03:09 GMT)
LLM- Agent 、特に情報収集タスクに関するベンチマークの提案。OpenAI o3の清野が高いがKimi K2も良い性能。
プロジェクトサイトはWideSearch: Benchmarking Agentic Broad Info-Seeking