IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

  • IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction [107.5]
    IterResearchは、マルコフ決定過程として長期研究を再構築する、新しい反復的深層研究パラダイムである。 6つのベンチマークで平均+14.5ppの既存のオープンソースエージェントよりも大幅に改善されている。 これは効果的なプロンプト戦略として機能し、ロングホライゾンタスクにおけるReActよりも19.2ppのフロンティアモデルを改善する。
    論文  参考訳(メタデータ)   (Mon, 10 Nov 2025 17:30:08 GMT)
  • 長い処理を必要とする問題に対して通常行われる「The mono-contextual approach linearly accumulates all information into a single, ever- expanding context, leading to context suffocation and noise contamination.」からの改善、「IterResearch models deep research as an extended MDP with workspace reconstruction. Each round begins with a reconstructed workspace st containing the question, an evolving report Mt, and immediate context. The agent generates structured decisions dt = (Think, Report, Action) and interacts with environment E. The transition function T reconstructs the workspace, maintaining the Markov property while preventing context bloat and enabling sustained reasoning and information-seeking.」という手法を提案。AIといえども(?)情報整理は重要。
  • 多くのベンチマークでスコアを改善。

DeepAgent: A General Reasoning Agent with Scalable Toolsets 

  • DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6]
    DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。 長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。 LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
    論文  参考訳(メタデータ)   (Fri, 24 Oct 2025 16:24:01 GMT)
  • ツール利用等も可能になるエージェントフレームワークの紹介。QwQ-32Bをバックボーンとして有効性を検証している。
  • リポジトリはGitHub – RUC-NLPIR/DeepAgent: 🛠️ DeepAgent: A General Reasoning Agent with Scalable Toolsets

Tongyi DeepResearch Technical Report

  • Tongyi DeepResearch Technical Report [109.8]
    Tongyi DeepResearchは、自律的な深層研究機関にインセンティブを与えるため、エンドツーエンドのトレーニングフレームワークを通じて開発されている。 Tongyi DeepResearchは合計35億のパラメータを達成している。 私たちは、コミュニティを強化するためのモデル、フレームワーク、完全なソリューションをオープンソースにしています。
    論文  参考訳(メタデータ)   (Tue, 28 Oct 2025 17:53:02 GMT)
  • 「Tongyi DeepResearch establishes a new state-of-the-art with substantially fewer parameters, comprising a total of 30.5 billion parameters while activating only 3.3 billion per token, building upon the Qwen3- 30B-A3B-Base model (Yang et al , 2025). Empirical evaluations on deep research benchmarks demonstrate the effectiveness of our agent.」と高効率なモデルを活用したDeepResearch、商用環境を上回る性能を主張。
  • プロジェクトサイトはTongyi DeepResearch: A New Era of Open-Source AI Researchers | Tongyi DeepResearch

FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis

  • FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis [110.6]
    HisRubricは階層的な分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークである。 FinDeepResearchは、4つの言語にまたがる8つの金融市場から64の上場企業からなるベンチマークである。 6つのDRエージェント、深い推論能力と探索能力を備えた5つのLLM、深い推論能力を持つ5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。
    論文  参考訳(メタデータ)   (Wed, 15 Oct 2025 17:21:56 GMT)
  • 金融ドメインのDeepResearchの評価。o3 deepresearchの性能が高い(Grok4やGemini 2.5 Proとは僅差)が「Our experiments suggest that even top-performing DR agents struggle to consistently balance a coherent analytical structure with factual accuracy. This imbalance remains the primary barrier to their deployment in high-stakes applications.」とのこと。。

InfoAgent: Advancing Autonomous Information-Seeking Agents

  • InfoAgent: Advancing Autonomous Information-Seeking Agents [143.2]
    本稿では,革新的なデータ合成パイプラインとWeb検索ツールを駆使したディープリサーチエージェントInfoAgentを紹介する。 我々の方法では、InfoAgentはBrowseCompで15.3%、BrowseComp-ZHで29.2%、Xbench-DSで40.4%の精度を達成した。
    論文  参考訳(メタデータ)   (Mon, 29 Sep 2025 17:59:57 GMT)
  • Deep Researchエージェントの構築。Qwen3 14Bベースで合成データを活用、「In the first stage, we perform supervised finetuning (SFT) as a cold start, in order to instill long-horizon search behavior into the model.」、「In the second stage, we apply RL to refine its ability of reasoning-driven tool use.」の2段階でのpost training。
  • 合成データ、post trainingの有効性を示す結果で、ベースモデルサイズもお手頃感がある。このようなSLMの開発が流行っていく可能性を感じる結果。

WebWeaver, WebResearcher

Tongyi DeepResearch: A New Era of Open-Source AI Researchers | Tongyi DeepResearch関連、WebWeaverと WebResearcherの論文が出ていた。近いが様々なアプローチを試しているよう。

  • WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.6]
    本稿では、AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題である、オープンエンドディープリサーチ(OEDR)に取り組む。 人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークであるWebWeaverを紹介する。
    論文  参考訳(メタデータ)   (Tue, 16 Sep 2025 17:57:21 GMT)
  • 「In this paper, we introduced WebWeaver, a novel dual-agent framework designed to overcome the fundamental flaws of static, machine-like pipelines in open-ended deep research (OEDR). By emulating the human cognitive process that integrates the planner’s dynamic research cycle with the writer’s hierarchical retrieval and writing process, WebWeaver consistently outperforms both proprietary and open-source systems, establishing a new state-of-the-art.」
  • WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents [72.3]
    WebResearcherは、マルコフ決定プロセスとしてディープリサーチを再構築する反復的なディープリサーチパラダイムである。 WebResearcherは最先端のパフォーマンスを実現し、フロンティアのプロプライエタリシステムを超えています。
    論文  参考訳(メタデータ)   (Tue, 16 Sep 2025 17:57:17 GMT)
  • 「(1) IterResearch, an iterative paradigm that reformulates deep research as a Markov Decision Process with periodic consolidation, overcoming the context suffocation and noise contamination of mono-contextual approaches; (2) WebFrontier, a scalable data synthesis engine that addresses training data scarcity through tool-augmented complexity escalation; and (3) a Research-Synthesis Framework that enables effective test-time scaling through parallel multi-agent exploration」の3要素からなるフレームワーク。

SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents

  • SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.3]
    本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。 我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 02:07:09 GMT)
  • 「we propose a compact synthetic-data reinforcement learning recipe that adapts reasoningoptimized LLMs into native Autonomous Single-Agent systems for Deep Research. Applied to open-source backbones, our best variant attains 28.7% on Humanity’s Last Exam.」と合成データを活用したDeep Researchエージェント構築フレームワークの提案。

Memento: Fine-tuning LLM Agents without Fine-tuning LLMs 

  • Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3]
    本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。 本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。 我々はエージェントモデルを,GAIA検証でトップ1に達するMementoというディープリサーチ環境でインスタンス化する。
    論文  参考訳(メタデータ)   (Mon, 25 Aug 2025 13:32:12 GMT)
  • 「Memento formalises deep research agents as a memory-based Markov Decision Process (MDP) and implements it within a planner–executor framework, leveraging an episodic case bank to record and retrieve trajectories for continual policy improvement.」というメモリ機構を持つエージェントフレームワークの提案。
  • リポジトリはGitHub – Agent-on-the-Fly/Memento: Official Code of Memento: Fine-tuning LLM Agents without Fine-tuning LLMs

From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents

  • From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.7]
    推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。 静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。 我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
    論文  参考訳(メタデータ)   (Thu, 26 Jun 2025 17:18:00 GMT)
  • DeepResearchに関するサーベイ、論文が出るのも凄いスピードだが、サーベイが出るのも早い・・・
  • リポジトリはGitHub – DavidZWZ/Awesome-Deep-Research: [Up-to-date] Awesome Agentic Deep Research Resources