RAGでは厳しい問題を扱うためのMemory関連の研究がとても盛ん。
- MemOS: A Memory OS for AI System [115.3]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。 既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。 MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (Fri, 04 Jul 2025 17:21:46 GMT) - MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models – arXiv最新論文の紹介からのアップデート、AgenticなアプローチのLLM用メモリ。時系列性など通常のRAGでは簡単ではない部分の性能向上が大きい。(が、「To ensure architectural parity, all methods are implemented over the same LLM backbone (GPT-4o-mini)」とベースモデルがGPT-4o miniで良いのかは若干謎ではある)
- リポジトリはGitHub – MemTensor/MemOS: MemOS (Preview) | Intelligence Begins with Memory
- MIRIX: Multi-Agent Memory System for LLM-Based Agents [7.1]
MIRIXは言語モデルのためのモジュール型マルチエージェントメモリシステムである。 MIRIXは、リッチな視覚的およびマルチモーダル体験を受け入れるためにテキストを超越する。 MIRIXはメモリ拡張LDMエージェントの新たなパフォーマンス標準を設定している。
論文 参考訳(メタデータ) (Thu, 10 Jul 2025 17:40:11 GMT) - こちらもAgenticなアプローチのメモリ管理フレームワーク。ベースモデルが異なるためMemOSと直接比較が困難だが、他システムと比べ高い性能を主張。
- リポジトリはGitHub – Mirix-AI/MIRIX: Mirix is a multi-agent personal assistant designed to track on-screen activities and answer user questions intelligently. By capturing real-time visual data and consolidating it into structured memories, Mirix transforms raw inputs into a rich knowledge base that adapts to your digital experiences.
- Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [19.5]
メモリ機構を持つエージェントをメモリエージェントと呼ぶ。 本稿では,メモリエージェントに不可欠な4つのコア能力,すなわち,正確な検索,テスト時間学習,長距離理解,コンフリクト解決の4つを同定する。 既存のデータセットは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。 既存のベンチマークでは4つの能力をすべてカバーしていないため、メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介します。
論文 参考訳(メタデータ) (Mon, 07 Jul 2025 17:59:54 GMT) - こちらはMemoryを持つエージェントのためのベンチマークの提案
- 「we identify four core competencies essential for memory agents: accurate retrieval, test-time learning, long-range understanding, and conflict resolution.」とのこと。
- 結果にある「While Mem0 has demonstrated relatively strong performance on conversational tasks such as LOCOMO—where information density is comparatively low—it tends to perform poorly on benchmarks containing dense informational content, including RULER and ∞-Bench. For tasks emphasizing Time-to-Live (TTL) and Least Recently Used (LRU) retrieval, these limitations are often even more pronounced.」という指摘は興味深く、ドメインを選ばない汎用的な構造を作るのは大変そうという印象。
- リポジトリはai-hyz/MemoryAgentBench · Datasets at Hugging Face、GitHub – HUST-AI-HYZ/MemoryAgentBench: Open source code for Paper: Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions