How Far Are We from Genuinely Useful Deep Research Agents?

  • How Far Are We from Genuinely Useful Deep Research Agents? [48.6]
    Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。 レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。 我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 17:58:59 GMT)
  • 「Fine-grained DEep- Research bench (FINDER), a fine-grained benchmark designed to evaluate DRAs in a more comprehensive manner. Unlike existing benchmarks, DEFT is built upon 100 expert-curated research tasks with 419 detailed check- list items that guide the structure, analytical depth, and citation integrity of generated reports.」というベンチマークの提案。
  • リポジトリはGitHub – OPPO-PersonalAI/FINDER_DEFT: Official implementation for paper “How Far Are We from Genuinely Useful Deep Research Agents?”

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です