SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents

  • SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.3]
    本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。 我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 02:07:09 GMT)
  • 「we propose a compact synthetic-data reinforcement learning recipe that adapts reasoningoptimized LLMs into native Autonomous Single-Agent systems for Deep Research. Applied to open-source backbones, our best variant attains 28.7% on Humanity’s Last Exam.」と合成データを活用したDeep Researchエージェント構築フレームワークの提案。

Memento: Fine-tuning LLM Agents without Fine-tuning LLMs 

  • Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3]
    本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。 本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。 我々はエージェントモデルを,GAIA検証でトップ1に達するMementoというディープリサーチ環境でインスタンス化する。
    論文  参考訳(メタデータ)   (Mon, 25 Aug 2025 13:32:12 GMT)
  • 「Memento formalises deep research agents as a memory-based Markov Decision Process (MDP) and implements it within a planner–executor framework, leveraging an episodic case bank to record and retrieve trajectories for continual policy improvement.」というメモリ機構を持つエージェントフレームワークの提案。
  • リポジトリはGitHub – Agent-on-the-Fly/Memento: Official Code of Memento: Fine-tuning LLM Agents without Fine-tuning LLMs

From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents

  • From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.7]
    推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。 静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。 我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
    論文  参考訳(メタデータ)   (Thu, 26 Jun 2025 17:18:00 GMT)
  • DeepResearchに関するサーベイ、論文が出るのも凄いスピードだが、サーベイが出るのも早い・・・
  • リポジトリはGitHub – DavidZWZ/Awesome-Deep-Research: [Up-to-date] Awesome Agentic Deep Research Resources