How Far Are We from Genuinely Useful Deep Research Agents?
How Far Are We from Genuinely Useful Deep Research Agents? [48.6] Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。 レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。 我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。 論文参考訳(メタデータ) (Mon, 01 Dec 2025 17:58:59 GMT)
「Fine-grained DEep- Research bench (FINDER), a fine-grained benchmark designed to evaluate DRAs in a more comprehensive manner. Unlike existing benchmarks, DEFT is built upon 100 expert-curated research tasks with 419 detailed check- list items that guide the structure, analytical depth, and citation integrity of generated reports.」というベンチマークの提案。