Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory
Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.7] Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。 10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。 論文参考訳(メタデータ) (Tue, 25 Nov 2025 21:08:07 GMT)
「The benchmark covers both multi-turn goal-oriented environments and single-turn reasoning or problem-solving tasks, explicitly testing whether LLMs can accumulate knowledge and refine strategies during deployment, a process we term test-time evolution. We unify and implement over ten representative memory modules, including retrieval-based, workflow, and hierarchical memory systems, to study their adaptation behavior. To further examine experience reuse, we introduce ExpRAG, a simple retrieval-based baseline that leverages prior task experiences, and further develop ReMem, an advanced action–think–memory refine pipeline that tightly integrates reasoning, action, and memory updates for continual improvement.」とのこと。比較が難しい分野でありとてもありがたいベンチマーク。シンプルな戦略が好スコアを出している点も興味深い。。。