Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution

  • Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution [52.8]
    我々は静的ストレージと動的推論のギャップを埋めるため、$textbfReMe$ ($textitRemember Me, Refine Me$)を提案する。 ReMeは3つのメカニズムを通じてメモリライフサイクルを革新する: $textitmulti-faceted distillation$, きめ細かい経験を抽出する。 BFCL-V3とAppWorldの実験では、ReMeが新しい最先端のエージェントメモリシステムを確立している。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 14:40:01 GMT)
  • 「The ReMe framework comprises three alternating phases. The system first constructs the initial experience pool from the agent’s past trajectories. For new tasks, relevant experiences are recalled and reorganized to guide agent inference. After task execution, ReMe updates the pool, selectively adding new insights and removing outdated ones.」というMemoryフレームワーク
  • リポジトリはGitHub – agentscope-ai/ReMe: ReMe: Memory Management Kit for Agents – Remember Me, Refine Me.

Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory 

  • Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.7]
    Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。 10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
    論文  参考訳(メタデータ)   (Tue, 25 Nov 2025 21:08:07 GMT)
  • 「The benchmark covers both multi-turn goal-oriented environments and single-turn reasoning or problem-solving tasks, explicitly testing whether LLMs can accumulate knowledge and refine strategies during deployment, a process we term test-time evolution. We unify and implement over ten representative memory modules, including retrieval-based, workflow, and hierarchical memory systems, to study their adaptation behavior. To further examine experience reuse, we introduce ExpRAG, a simple retrieval-based baseline that leverages prior task experiences, and further develop ReMem, an advanced action–think–memory refine pipeline that tightly integrates reasoning, action, and memory updates for continual improvement.」とのこと。比較が難しい分野でありとてもありがたいベンチマーク。シンプルな戦略が好スコアを出している点も興味深い。。。

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

  • IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction [107.5]
    IterResearchは、マルコフ決定過程として長期研究を再構築する、新しい反復的深層研究パラダイムである。 6つのベンチマークで平均+14.5ppの既存のオープンソースエージェントよりも大幅に改善されている。 これは効果的なプロンプト戦略として機能し、ロングホライゾンタスクにおけるReActよりも19.2ppのフロンティアモデルを改善する。
    論文  参考訳(メタデータ)   (Mon, 10 Nov 2025 17:30:08 GMT)
  • 長い処理を必要とする問題に対して通常行われる「The mono-contextual approach linearly accumulates all information into a single, ever- expanding context, leading to context suffocation and noise contamination.」からの改善、「IterResearch models deep research as an extended MDP with workspace reconstruction. Each round begins with a reconstructed workspace st containing the question, an evolving report Mt, and immediate context. The agent generates structured decisions dt = (Think, Report, Action) and interacts with environment E. The transition function T reconstructs the workspace, maintaining the Markov property while preventing context bloat and enabling sustained reasoning and information-seeking.」という手法を提案。AIといえども(?)情報整理は重要。
  • 多くのベンチマークでスコアを改善。

MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning

  • MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.3]
    本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。 それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。 我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
    論文  参考訳(メタデータ)   (Tue, 04 Nov 2025 18:27:39 GMT)
  • 「We introduce MemSearcher, an agentic workflow that leverages the backbone LLM as a memory manager to iteratively maintain a compact memory, preserving only the essential information necessary for answering the user’s question and thereby eliminating the need to append the entire interaction history to the LLM context. • We develop search agents based on MemSearcher, and utilize multi-context GRPO, a natural extension of GRPO, to optimize LLMs to reason, leverage search engines and manage memory simultaneously.」とメモリ関連の機能尾をうまく扱えるように強化学習されたモデルの提案。「MemSearcher based on Qwen2.5-3B-Instruct achieves a higher average score than other methods based on Qwen2.5-7B-Instruct.」と効果を確認。
  • リポジトリはGitHub – icip-cas/MemSearcher

Evaluating Long-Term Memory for Long-Context Question Answering

  • Evaluating Long-Term Memory for Long-Context Question Answering [100.1]
    質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。 以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
    論文  参考訳(メタデータ)   (Mon, 27 Oct 2025 18:03:50 GMT)
  • 長文におけるMemoryの有効性、「Our findings show that memory-augmented approaches re- duce token usage by over 90% while maintain- ing competitive accuracy. Memory architecture complexity should scale with model capability, with small foundation models benefitting most from RAG, and strong instruction-tuned rea- soning model gaining from episodic learning through reflections and more complex agentic semantic memory.」とモデルサイズの影響、タスクによるFull contextとの性能差も興味深い。

LightMem: Lightweight and Efficient Memory-Augmented Generation

  • LightMem: Lightweight and Efficient Memory-Augmented Generation [72.2]
    我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。 人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。 GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
    論文  参考訳(メタデータ)   (Tue, 21 Oct 2025 17:58:17 GMT)
  • 軽量かつ効率的なメモリーフレームワーク。「Inspired by the Atkinson–Shiffrin model of human memory, LightMem organizes memory into three complementary stages. First, cognition- inspired sensory memory rapidly filters irrelevant information through lightweight compression and groups information according to their topics. Next, topic-aware short-term memory consolidates these topic-based groups, organizing and summarizing content for more structured access. Finally, long-term memory with sleep- time update employs an offline procedure that decouples consolidation from online inference.」と3モジュール構成
  • リポジトリはGitHub – zjunlp/LightMem: LightMem: Lightweight and Efficient Memory-Augmented Generation

Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks 

  • Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks [23.2]
    大規模言語モデルは、長期のエージェントタスクにおいて課題に直面します。 既存のワーキングメモリメソッドは、エージェントのコアポリシーから切り離された外部メカニズムに依存している。 本稿では,一貫したポリシーの一部として明示的な編集操作を実行することで,エージェントが作業メモリを積極的に管理する新しいフレームワーク,Memory-as-Actionを提案する。
    論文  参考訳(メタデータ)   (Tue, 14 Oct 2025 15:29:57 GMT)
  • 「This work introduces Memory-as-Action, a framework that treats working memory management as an integral part of an agent’s decision-making process, rather than as an external module. By formalizing memory operations as explicit actions, a single policy can learn to interleave task reasoning with context curation.」というフレームワークの提案、作業領域管理と推論を同時管理する手法の優位性を主張。

Artificial Hippocampus Networks for Efficient Long-Context Modeling

  • Artificial Hippocampus Networks for Efficient Long-Context Modeling [17.2]
    ロングシーケンス・モデリングは、RNNのようなモデルにおける圧縮固定サイズメモリの効率と、注目ベースのトランスフォーマーにおけるメモリの増大の忠実さとのトレードオフに直面している。 認知科学における多段階モデルに着想を得て,人工ニューラルネットワークのメモリフレームワークを導入する。 長文ベンチマークのLV-EvalとInfiniteBenchの実験は、AHN拡張モデルがスライディングウインドウベースラインを一貫して上回ることを示した。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 17:59:55 GMT)
  • 「AHNs address the efficiency limitation of standard transformers by maintaining a sliding window of KV cache as lossless memory while transforming out-of-window information into a fixed-size compressed memory This approach enables AHN-augmented models to achieve constant memory and computational complexity per token over long sequences. Experiments」と長文に強い構造の提案。
  • リポジトリはGitHub – ByteDance-Seed/AHN: AHN: Artificial Hippocampus Networks for Efficient Long-Context Modeling

Mem-α: Learning Memory Construction via Reinforcement Learning 

  • Mem-α: Learning Memory Construction via Reinforcement Learning [20.9]
    大きな言語モデル(LLM)エージェントは、限られたコンテキストウィンドウによって制約される。 現在のメモリ拡張エージェントは、メモリ更新のための事前に定義された命令とツールに依存している。 Mem-alphaは、エージェントに複雑なメモリシステムを効果的に管理するように訓練する強化学習フレームワークである。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 08:02:34 GMT)
  • システムプロンプト等で処理を行うメモリ管理エージェントでは限界があるためメモリ管理戦略を学ぶよう強化学習を活用するアプローチを提案「we propose Mem-α, a reinforcement learning framework that trains agents to effectively manage complex memory systems through interaction and feedback. 」
  • 「Empirical evaluation demonstrates that Mem-α achieves significant improvements over existing memory-augmented agent baselines across diverse benchmarks. Most remarkably, despite being trained exclusively on instances with a maximum length of 30k tokens, our agents exhibit robust generalization to sequences exceeding 400k tokens, over 13× the training length.」というのも興味深い。
  • リポジトリはGitHub – wangyu-ustc/Mem-alpha: Learning Memory Construction via Reinforcement Learning

Text2Mem: A Unified Memory Operation Language for Memory Operating System 

  • Text2Mem: A Unified Memory Operation Language for Memory Operating System [33.0]
    モデルエージェントのための統一メモリ操作言語であるText2Memを紹介する。 Text2Memは、自然な正確性を保証するための標準化されたパスを提供する。
    論文  参考訳(メタデータ)   (Sun, 14 Sep 2025 07:30:09 GMT)
  • 「We propose Text2Mem, the first unified memory operation language for LLM-based agents. It defines a compact but expressive set of twelve operations, spanning encoding, storage, and retrieval, with clear semantic boundaries and support for higher-order controls.」とAgentic処理を前提としたメモリフレームワーク。
  • リポジトリはGitHub – MemTensor/text2mem