MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning

  • MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.3]
    本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。 それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。 我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
    論文  参考訳(メタデータ)   (Tue, 04 Nov 2025 18:27:39 GMT)
  • 「We introduce MemSearcher, an agentic workflow that leverages the backbone LLM as a memory manager to iteratively maintain a compact memory, preserving only the essential information necessary for answering the user’s question and thereby eliminating the need to append the entire interaction history to the LLM context. • We develop search agents based on MemSearcher, and utilize multi-context GRPO, a natural extension of GRPO, to optimize LLMs to reason, leverage search engines and manage memory simultaneously.」とメモリ関連の機能尾をうまく扱えるように強化学習されたモデルの提案。「MemSearcher based on Qwen2.5-3B-Instruct achieves a higher average score than other methods based on Qwen2.5-7B-Instruct.」と効果を確認。
  • リポジトリはGitHub – icip-cas/MemSearcher

Scaling Agent Learning via Experience Synthesis

  • Scaling Agent Learning via Experience Synthesis [100.4]
    強化学習(RL)は、対話を通じて自己改善を行うことで、大規模言語モデル(LLM)エージェントを強化することができる。 私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。 高価な実環境のロールアウトに頼るのではなく、DreamGymは環境のダイナミクスを推論ベースのエクスペリエンスモデルに蒸留する。
    論文  参考訳(メタデータ)   (Wed, 05 Nov 2025 18:58:48 GMT)
  • 「To synthesize diverse agent experiences for RL training, DreamGym is built around three key components: (1) a scalable reasoning experience model that encodes the meta-dynamics of the target domain to efficiently generate informative trajectories; (2) an experience replay buffer that integrates offline environment knowledge with online synthetic transitions, co-evolving with the agent to stay aligned with its updated policy; (3) a curriculum task generator that produces progressively challenging variations of high-value tasks selected via a reward-entropy heuristic.」と強力な合成フレームワーク。

A Survey on Unlearning in Large Language Models 

  • A Survey on Unlearning in Large Language Models [18.3]
    大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、大規模なコーパスでのトレーニングは重大なリスクをもたらす。 これらの問題を緩和し、「忘れられる権利」のような法的・倫理的な基準に合わせるために、機械の非学習は重要なテクニックとして現れてきた。 この調査は、2021年以降に出版されたLLMアンラーニングに関する180以上の論文の体系的なレビューを提供する。
    論文  参考訳(メタデータ)   (Wed, 29 Oct 2025 02:34:17 GMT)
  • 社会実装上重要だが簡単ではないunlearningのサーベイ