FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis

  • FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis [110.6]
    HisRubricは階層的な分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークである。 FinDeepResearchは、4つの言語にまたがる8つの金融市場から64の上場企業からなるベンチマークである。 6つのDRエージェント、深い推論能力と探索能力を備えた5つのLLM、深い推論能力を持つ5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。
    論文  参考訳(メタデータ)   (Wed, 15 Oct 2025 17:21:56 GMT)
  • 金融ドメインのDeepResearchの評価。o3 deepresearchの性能が高い(Grok4やGemini 2.5 Proとは僅差)が「Our experiments suggest that even top-performing DR agents struggle to consistently balance a coherent analytical structure with factual accuracy. This imbalance remains the primary barrier to their deployment in high-stakes applications.」とのこと。。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です