FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis
FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis [110.6] HisRubricは階層的な分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークである。 FinDeepResearchは、4つの言語にまたがる8つの金融市場から64の上場企業からなるベンチマークである。 6つのDRエージェント、深い推論能力と探索能力を備えた5つのLLM、深い推論能力を持つ5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。 論文参考訳(メタデータ) (Wed, 15 Oct 2025 17:21:56 GMT)
金融ドメインのDeepResearchの評価。o3 deepresearchの性能が高い(Grok4やGemini 2.5 Proとは僅差)が「Our experiments suggest that even top-performing DR agents struggle to consistently balance a coherent analytical structure with factual accuracy. This imbalance remains the primary barrier to their deployment in high-stakes applications.」とのこと。。