コンテンツへスキップ
- How Far Are We from Genuinely Useful Deep Research Agents? [48.6]
Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。 レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。 我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
論文 参考訳(メタデータ) (Mon, 01 Dec 2025 17:58:59 GMT)
- 「Fine-grained DEep- Research bench (FINDER), a fine-grained benchmark designed to evaluate DRAs in a more comprehensive manner. Unlike existing benchmarks, DEFT is built upon 100 expert-curated research tasks with 419 detailed check- list items that guide the structure, analytical depth, and citation integrity of generated reports.」というベンチマークの提案。
- リポジトリはGitHub – OPPO-PersonalAI/FINDER_DEFT: Official implementation for paper “How Far Are We from Genuinely Useful Deep Research Agents?”
- MASim: Multilingual Agent-Based Simulation for Social Science [68.0]
マルチエージェントロールプレイングは近年,言語エージェントを用いた社会行動研究の公約を示している。 既存のシミュレーションは主に単言語であり、言語間相互作用をモデル化することができない。 我々は、最初の多言語エージェントベースのシミュレーションフレームワークであるMASimを紹介する。
論文 参考訳(メタデータ) (Mon, 08 Dec 2025 06:12:48 GMT)
- 「In this work, we explore multilingual agent-based simulation for social science discovery. We begin with the MAPS dataset, which integrates open- domain survey questionnaires with user demo- graphics from global social science surveys. On top of this resource, we develop the MASIM frame- work, which models social-network interactions among cross-country user agents and news agents, and outputs user attitude dynamics for survey questions. Our evaluation examines real-world cali- bration, global sensitivity, and local consistency, which collectively support the framework’s robust- ness and effectiveness.」とマルチリンガル性に特徴を持つマルチエージェントシミュレーションフレームワークの提案。多言語性は文化に関わる部分など重要なポイントのように思う。