How Far Are We from Genuinely Useful Deep Research Agents?

How Far Are We from Genuinely Useful Deep Research Agents? [48.6]
Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
論文参考訳（メタデータ） (Mon, 01 Dec 2025 17:58:59 GMT)
「Fine-grained DEep- Research bench (FINDER), a fine-grained benchmark designed to evaluate DRAs in a more comprehensive manner. Unlike existing benchmarks, DEFT is built upon 100 expert-curated research tasks with 419 detailed check- list items that guide the structure, analytical depth, and citation integrity of generated reports.」というベンチマークの提案。
リポジトリはGitHub – OPPO-PersonalAI/FINDER_DEFT: Official implementation for paper “How Far Are We from Genuinely Useful Deep Research Agents?”

コメントを残す

コメントを残す コメントをキャンセル