- Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。 本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。 我々はエージェントモデルを,GAIA検証でトップ1に達するMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (Mon, 25 Aug 2025 13:32:12 GMT) - 「Memento formalises deep research agents as a memory-based Markov Decision Process (MDP) and implements it within a planner–executor framework, leveraging an episodic case bank to record and retrieve trajectories for continual policy improvement.」というメモリ機構を持つエージェントフレームワークの提案。
- リポジトリはGitHub – Agent-on-the-Fly/Memento: Official Code of Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
タグ: Memory
Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
- Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory [11.7]
本稿では,長期記憶を備えた新しいフレームワークであるM3-Agentを紹介する。 M3-Agentは、リアルタイムの視覚および聴覚入力を処理して、長期記憶の構築と更新を行うことができる。 我々は,M3-Benchという長ビデオ質問応答ベンチマークを開発した。
論文 参考訳(メタデータ) (Wed, 13 Aug 2025 12:03:03 GMT) - こちらも長期記憶を備えたエージェントフレームワークの提案。「Compared to the strongest baseline, Gemini-GPT4o-Hybrid, which implements M3-Agent framework by prompting Gemini-1.5-Pro [41] for memorization and GPT-4o [15] for control, M3-Agent improves accuracy by 6.7%, 7.7%, and 5.3% on M3-Bench-robot, M3-Bench-web, and VideoMME-long, respectively. Our ablation study demonstrates the importance of semantic memory: removing it reduces accuracy by 17.1%, 19.2% and 13.1% on M3-Bench-robot, M3-Bench-web, and VideoMME-long, respectively.」と効果を報告している。
- プロジェクトサイトはSeeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
Memp: Exploring Agent Procedural Memory
- Memp: Exploring Agent Procedural Memory [72.4]
LLM(Large Language Models)ベースのエージェントは様々なタスクをこなすが、静的パラメータで手動で設計または絡み合うような不安定なプロシージャメモリに悩まされる。 本稿では,過去のエージェントの軌跡をステップバイステップの細粒度と高レベルなスクリプトライクな抽象化の両方に蒸留するMempを提案する。 メモリレポジトリが洗練されるにつれて、エージェントは着実に高い成功率と類似タスクの効率を達成できることを示す。
論文 参考訳(メタデータ) (Fri, 08 Aug 2025 16:20:56 GMT) - エージェントへのMemory導入、「Empirical results on housework automation and information-seeking bench- marks show that leveraging procedural memory significantly boosts task success rates and efficiency. Beyond improving individual episodes, Memp supports continual learning and robust generalization, marking a step toward self-improving, resilient agents.」とのこと。
- メモリ管理はシンプルに行っているように見える。
MLP Memory: Language Modeling with Retriever-pretrained External Memory
- MLP Memory: Language Modeling with Retriever-pretrained External Memory [26.0]
そこで本研究では,事前学習可能な外部メモリを用いてデコーダから切り離すことを提案する。 私たちのアーキテクチャは、下流のタスクに強い難易度とパフォーマンスを示します。 3つの幻覚ベンチマークと9つのメモリ集約タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (Sun, 03 Aug 2025 16:40:53 GMT) - 「In this work, we propose an external memory for LLM that is pretrained to mimic a retriever on the entire pretraining dataset. Specifically, following the RAG setting in kNN-LM [27], this memory learns to map the LLM hidden state at a certain step to a vocabulary distribution matching the output of the kNN retriever. During inference, the LLM’s native output is interpolated with the retriever-pretrained output from the external memory.」と記憶(知識)部分を切り離したアーキテクチャの提案
- これがうまく動作するのであれば面白いなと思う一方で、知識と思考が切り離せるのかはやや疑問で思考・生成部分への影響が気になるところ。
RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems
- RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems [30.5]
本稿では,脳にインスパイアされたマルチメモリ・フレームワークであるRoboMemoryについて紹介する。 継続的学習、マルチモジュールメモリレイテンシ、タスク相関キャプチャ、クローズドループ計画における無限ループ緩和といった現実の環境における課題に対処する。
論文 参考訳(メタデータ) (Sat, 02 Aug 2025 15:39:42 GMT) - 「Inspired by the brain’s unified memory mechanisms, we design a lifelong embodied mem- ory system with four parallel modules (Spatial, Temporal, Episodic, Semantic) under a unified framework. This framework supports parallelized update and retrieval across modules, mitigating latency accumulation in complex systems while facilitating coherent knowledge integration for lifelong learning.」という、AgenticなアプローチのMemory。
- 現状、現実的にはAgenticなアプローチだと思う一方で、どの段階でモデル構造に踏み込むべきなのかは気になるところ。
Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance
- Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance [39.6]
大規模言語モデル(LLM)エージェントは、しばしばルールや必要なドメイン知識が頻繁に変化する環境で苦労する。 テスト時に更新されたドメイン知識を継続的に学習するための適応反射型対話エージェント(ARIA)を提案する。 ARIAはTikTok Pay内にデプロイされ、月間アクティブユーザ数は1億5000万を超えている。
論文 参考訳(メタデータ) (Wed, 23 Jul 2025 02:12:32 GMT) - 「ARIA addresses conventional model limitations in dynamic environments by as- sessing uncertainty via self-dialogue, soliciting expert corrections, and updating a timestamped, conflict-resolving knowledge base.」と記憶を通じた自己改善を行っていくフレームワークの提案。実際にデプロイされているのがすごい。
- リポジトリはyf-he/aria
MemOS: A Memory OS for AI System, MIRIX: Multi-Agent Memory System for LLM-Based Agents
RAGでは厳しい問題を扱うためのMemory関連の研究がとても盛ん。
- MemOS: A Memory OS for AI System [115.3]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。 既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。 MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (Fri, 04 Jul 2025 17:21:46 GMT) - MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models – arXiv最新論文の紹介からのアップデート、AgenticなアプローチのLLM用メモリ。時系列性など通常のRAGでは簡単ではない部分の性能向上が大きい。(が、「To ensure architectural parity, all methods are implemented over the same LLM backbone (GPT-4o-mini)」とベースモデルがGPT-4o miniで良いのかは若干謎ではある)
- リポジトリはGitHub – MemTensor/MemOS: MemOS (Preview) | Intelligence Begins with Memory
- MIRIX: Multi-Agent Memory System for LLM-Based Agents [7.1]
MIRIXは言語モデルのためのモジュール型マルチエージェントメモリシステムである。 MIRIXは、リッチな視覚的およびマルチモーダル体験を受け入れるためにテキストを超越する。 MIRIXはメモリ拡張LDMエージェントの新たなパフォーマンス標準を設定している。
論文 参考訳(メタデータ) (Thu, 10 Jul 2025 17:40:11 GMT) - こちらもAgenticなアプローチのメモリ管理フレームワーク。ベースモデルが異なるためMemOSと直接比較が困難だが、他システムと比べ高い性能を主張。
- リポジトリはGitHub – Mirix-AI/MIRIX: Mirix is a multi-agent personal assistant designed to track on-screen activities and answer user questions intelligently. By capturing real-time visual data and consolidating it into structured memories, Mirix transforms raw inputs into a rich knowledge base that adapts to your digital experiences.
- Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions [19.5]
メモリ機構を持つエージェントをメモリエージェントと呼ぶ。 本稿では,メモリエージェントに不可欠な4つのコア能力,すなわち,正確な検索,テスト時間学習,長距離理解,コンフリクト解決の4つを同定する。 既存のデータセットは、限られたコンテキスト長に依存するか、書籍ベースのQAのような静的で長いコンテキスト設定用に調整されている。 既存のベンチマークでは4つの能力をすべてカバーしていないため、メモリエージェント用に特別に設計された新しいベンチマークであるMemoryAgentBenchを紹介します。
論文 参考訳(メタデータ) (Mon, 07 Jul 2025 17:59:54 GMT) - こちらはMemoryを持つエージェントのためのベンチマークの提案
- 「we identify four core competencies essential for memory agents: accurate retrieval, test-time learning, long-range understanding, and conflict resolution.」とのこと。
- 結果にある「While Mem0 has demonstrated relatively strong performance on conversational tasks such as LOCOMO—where information density is comparatively low—it tends to perform poorly on benchmarks containing dense informational content, including RULER and ∞-Bench. For tasks emphasizing Time-to-Live (TTL) and Least Recently Used (LRU) retrieval, these limitations are often even more pronounced.」という指摘は興味深く、ドメインを選ばない汎用的な構造を作るのは大変そうという印象。
- リポジトリはai-hyz/MemoryAgentBench · Datasets at Hugging Face、GitHub – HUST-AI-HYZ/MemoryAgentBench: Open source code for Paper: Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent
- MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent [53.8]
我々は,セグメント内のテキストを読み,上書き戦略を用いてメモリを更新する新しいエージェントワークフローであるMemAgentを紹介した。 MemAgentは、32Kテキストでトレーニングされた8Kコンテキストから3.5M QAタスクへの外挿が可能で、パフォーマンスが5%低下し、512K RULERテストで95%以上を実現している。
論文 参考訳(メタデータ) (Thu, 03 Jul 2025 03:11:50 GMT) - 長文を扱うためのAgenticなフレームワークの提案、下記が特徴とのこと(プロジェクトサイトより引用)
- 1 Novel memory mechanism: The agent reads text in segments and efficiently updates memory through an overwriting strategy. This design enables the model to process arbitrarily long inputs within a fixed context window, fundamentally overcoming the window length limitations of traditional Transformer architectures.
- 2 O(n) complexity: By decoupling computation from text length, the complexity of processing long texts is transformed from quadratic growth to linear growth.
- 3 RL-driven extrapolation: We enhance the DAPO algorithm to support multi-turn training over context-independent conversations. Based on this, the trained model exhibits unprecedented extrapolation performance.
- プロジェクトサイトはMemAgent: Reshaping Long-Context LLM with Multi-Conv RL based Memory Agent
G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems
- G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems [44.8]
大規模言語モデル (LLM) を利用したマルチエージェントシステム (MAS) は、単一のLLMエージェントよりもはるかに高い認知と実行能力を示している。 組織記憶理論に触発されたMASのための階層型エージェントメモリシステムG-Memoryを紹介する。 Gメモリは、インボディードアクションの成功率と知識QAの精度を、それぞれ20.89%$と10.12%$で改善する。
論文 参考訳(メタデータ) (Mon, 09 Jun 2025 03:43:46 GMT) - とてもホットなLLMの記憶に関する報告。「we introduce G-Memory, a hierarchical, agentic memory system for MAS inspired by organizational memory theory, which manages the lengthy MAS interaction via a three-tier graph hierarchy: insight, query, and interaction graphs. Upon receiving a new user query, G-Memory performs bi-directional memory traversal to retrieve both high-level, generalizable insights that enable the system to leverage cross-trial knowledge, and fine-grained, condensed interaction trajectories that compactly encode prior collaboration experiences.」とAgenticなアプローチ。
- リポジトリはGitHub – bingreeky/GMemory
How much do language models memorize?
- How much do language models memorize? [104.2]
我々は記憶を2つの構成要素に分けている:「文体記憶」と「文体一般化」である。 一般化を完全に排除すると、モデルキャパシティを見積もるトータル・メモリ化を計算することができる。 サイズが大きくなるデータセット上で言語モデルをトレーニングし、キャパシティが満たされるまでモデルを記憶し、その時点での「グルーキング」が始まり、モデルが一般化し始めるにつれて意図しない記憶が減少するのを観察する。
論文 参考訳(メタデータ) (Fri, 30 May 2025 17:34:03 GMT) - AGIを目指すうえでとても重要な記憶に関する報告、「We formally separate memorization into two components: unintended memorization, the information a model contains about a specific dataset, and generalization, the information a model contains about the true data-generation process. When we completely eliminate generalization, we can compute the total memorization, which provides an estimate of model capacity: our measurements estimate that GPT-style models have a capacity of approximately 3.6 bits per parameter.」とのこと。
- 引用されているが、Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws – arXiv最新論文の紹介など、この手の研究は本当に興味深い。