Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory 

  • Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.7]
    Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。 10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
    論文  参考訳(メタデータ)   (Tue, 25 Nov 2025 21:08:07 GMT)
  • 「The benchmark covers both multi-turn goal-oriented environments and single-turn reasoning or problem-solving tasks, explicitly testing whether LLMs can accumulate knowledge and refine strategies during deployment, a process we term test-time evolution. We unify and implement over ten representative memory modules, including retrieval-based, workflow, and hierarchical memory systems, to study their adaptation behavior. To further examine experience reuse, we introduce ExpRAG, a simple retrieval-based baseline that leverages prior task experiences, and further develop ReMem, an advanced action–think–memory refine pipeline that tightly integrates reasoning, action, and memory updates for continual improvement.」とのこと。比較が難しい分野でありとてもありがたいベンチマーク。シンプルな戦略が好スコアを出している点も興味深い。。。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です