AI Memory関連の論文、ベンチマーク

先週はAI Memory関連の論文が多く出ていた。ベンチマークも増えていて重要かつ熱い分野。

  • EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.8]
    EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。 このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。 広範な評価により、どのLLMもすべてのメモリ次元において一貫して他を上回ることはないことが明らかになりました。 
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 03:14:42 GMT)
  • メモリ機能のためのベンチマーク
  • リポジトリはGitHub – shenye7436/EvolMem
  • Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.4]
    大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。 既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。 本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 08:24:16 GMT)
  • 長期・短期記憶を統一的に扱うアプローチ、「we propose Agentic Memory (Age- Mem), a unified memory management framework that enables LLM-based agents to jointly control long-term and short-term memory through learn- able, tool-based actions. By integrating memory operations directly into the agent’s policy and training them with a progressive reinforcement learning strategy, AgeMem replaces heuristic memory pipelines with an end-to-end optimized solution. Extensive experiments across diverse long-horizon benchmarks show that AgeMem improves both task performance and memory quality while maintaining efficient context usage.」
  • EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning [42.3]
    大きな言語モデル(LLM)は、長期の対話エージェントとしてますますデプロイされているが、その限られたコンテキストウィンドウは、拡張された相互作用よりもコヒーレントな振舞いを維持するのが困難である。 本稿では,EverMemOSについて紹介する。EverMemOSは,計算メモリにエミュレートされたライフサイクルを実装した自己組織型メモリオペレーティングシステムである。 EverMemOSは、メモリ拡張推論タスクで最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 14:39:43 GMT)
  • 「We introduce EverMemOS, a self-organizing memory operating system that implements an engram- inspired lifecycle for computational memory. Episodic Trace Formation converts dialogue streams into MemCells that capture episodic traces, atomic facts, and time-bounded Foresight signals. Semantic Consolidation organizes MemCells into thematic MemScenes, distilling stable semantic structures and updating user profiles. Reconstructive Recollection per- forms MemScene-guided agentic retrieval to compose the necessary and sufficient context for downstream reasoning. Experiments on LoCoMo and LongMemEval show that EverMemOS achieves state-of-the-art performance on memory-augmented reasoning tasks.」とのこと
  • リポジトリはGitHub – EverMind-AI/EverMemOS: EverMemOS is an open-source, enterprise-grade intelligent memory system. Our mission is to build AI memory that never forgets, making every conversation built on previous understanding.
  • Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction [35.2]
    エージェントのメモリ依存を明示的かつユーザ制御可能な次元としてモデル化できることを示す。 Steerable Memory Agent, SteeMを提案する。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 16:54:30 GMT)
  • 「We then propose Steerable Memory Agent, SteeM, a framework that allows users to dynamically regulate memory reliance, ranging from a fresh- start mode that promotes innovation to a high- fidelity mode that closely follows interaction history.」とMemoryの利用度を制御するアイデア
  • SimpleMem: Efficient Lifelong Memory for LLM Agents [73.7]
    セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。 本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。 ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 21:02:49 GMT)
  • 「SimpleMem mitigates context inflation through three stages. (1) Semantic Structured Compression filters redundant interaction content and reformulates raw dialogue into compact, context-independent memory units. (2) Recursive Consolidation incrementally organizes related memory units into higher-level abstract representations, reducing redundancy in long-term memory. (3) Adaptive Query-Aware Retrieval dynamically adjusts retrieval scope based on query complexity, enabling efficient context construction under constrained token budgets.」というアプローチ。効果は大きそうではあるものの、これをもって「Semantic Lossless Compression」といってよいのだろうかというのは若干疑問。
  • リポジトリはGitHub – aiming-lab/SimpleMem: SimpleMem: Efficient Lifelong Memory for LLM Agents

Systematic Framework of Application Methods for Large Language Models in Language Sciences 

  • Systematic Framework of Application Methods for Large Language Models in Language Sciences [23.8]
    大規模言語モデル(LLM)は言語科学を変革している。 彼らの広範な展開は、現在、方法論的な断片化と体系的な健全性の欠如に悩まされている。 本研究では,言語科学におけるLLMの戦略的かつ責任ある適用を導くための2つの包括的方法論フレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 11:43:17 GMT)
  • 「LLMs offer powerful capabilities for language sciences by enabling the anal- ysis of large corpora, providing quantitative measurements, and supporting investigations that were previously impractical. This study proposed two methodological frameworks for applying LLMs in the language sciences, organizing three complementary approaches: prompt-based interaction with closed-source models, fine-tuning of open-source models, and embedding- based quantitative analysis.」と整理されたサーベイ。

Adaptation of Agentic AI 

  • Adaptation of Agentic AI [162.6]
    我々は、急速に拡大する研究環境を、エージェント適応とツール適応の両方にまたがる体系的な枠組みに統一する。 エージェントAIにおける適応戦略の設計空間を明らかにする上で,本フレームワークが有効であることを示す。 次に、各カテゴリの代表的アプローチをレビューし、その強みと限界を分析し、主要なオープン課題と今後の機会を強調します。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 08:38:51 GMT)
  • AIエージェントに関するサーベイ。「The transition from static foundation models to autonomous agentic systems marks a fundamental shift in artificial intelligence, moving from passive response generation to active and multi-step problem solving. As these systems are deployed in increasingly complex and open-ended environments, the ability to adapt to refine behavior, master new tools, and align with specific tasks has become the primary driver of reliability and performance.」を「(A1) Agent Adaptation with Tool Execution Signal, (A2) Agent Adaptation with Agent Output Signal, (T1) Agent-Agnostic Tool Adaptation, and (T2) Agent-Supervised Tool Adaptation.」軸で整理。メリデメがあるので「Looking forward, the advancement of agentic AI depends on the strategic integration of these paradigms rather than their isolation.」というのはそうだろうと思う。
  • リポジトリはGitHub – pat-jj/Awesome-Adaptation-of-Agentic-AI: Repo for “Adaptation of Agentic AI”

Evaluating Large Language Models in Scientific Discovery

  • Evaluating Large Language Models in Scientific Discovery [91.7]
    大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。 生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。 このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 16:20:03 GMT)
  • AIに科学的発見はできるのか?という問いに対する評価。クイズのような形式ではなく、研究プロジェクト、現場の研究シナリオに基づく評価。「Large performance variation in research scenarios leads to changing choices of the best performing model on scientific discovery projects evaluated, suggesting all current LLMs are distant to general scientific “superintelligence”.」とのことではあるが、有効性も感じる印象を持った。
  • 「we observe striking exceptions to the positive correlation between question- and project-level performance. 」「This suggests that rigorous knowledge of explicit structure-property relationships is not a strict prerequisite for LLM-driven discovery. Rather, the capacity to discern optimization directions and facilitate serendipitous exploration appears more critical.」という指摘が面白い。どのモデルが良いかも問題によってかなり状況が変わるよう。

Memory in the Age of AI Agents

  • Memory in the Age of AI Agents [217.9]
    この研究は、現在のエージェントメモリ研究の最新の展望を提供することを目的としている。 我々は,エージェントメモリ,すなわちトークンレベル,パラメトリック,潜時メモリの3つの支配的実現を同定する。 実用的な開発を支援するため、メモリベンチマークとオープンソースフレームワークの包括的な概要をコンパイルする。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 17:22:34 GMT)
  • 重要性が増す、というかAGIを目指すための重要なピースであるMemoryのサーベイ。Key Questionsは次の通り。
    • ❶How is agent memory defined, and how does it relate to related concepts such as LLM memory, retrieval-augmented generation (RAG), and context engineering?
    • ❷Forms: What architectural or representational forms can agent memory take?
    • ❸Functions: Why is agent memory needed, and what roles or purposes does it serve?
    • ❹Dynamics: How does agent memory operate, adapt, and evolve over time?
    • ❺What are the promising frontiers for advancing agent memory research?」
  • リポジトリはGitHub – Shichun-Liu/Agent-Memory-Paper-List: The paper list of “Memory in the Age of AI Agents: A Survey”

Deep Research: A Systematic Survey

  • Deep Research: A Systematic Survey [118.8]
    Deep Research (DR)は、大規模言語モデルの推論能力と検索エンジンなどの外部ツールを組み合わせることを目的としている。 本調査は,深層研究システムの包括的かつ体系的な概要を提示する。
    論文  参考訳(メタデータ)   (Mon, 24 Nov 2025 15:28:28 GMT)
  • Deep Resaerchに関するサーベイ。関連研究を含め幅広いサーベイになっている。引用論文リストからは(当然と言えば当然だが)2025年以降に非常に盛り上がっている状況が分かる。
  • リポジトリはGitHub – mangopy/Deep-Research-Survey: A Systematic Survey of Deep Research

Generative AI for Self-Adaptive Systems: State of the Art and Research Roadmap 

  • Generative AI for Self-Adaptive Systems: State of the Art and Research Roadmap [38.6]
    自己適応システム(SAS)はフィードバックループを通じて変化や不確実性を扱うように設計されている。 GenAIはデータの理解と論理的推論において素晴らしいパフォーマンスを示している。 しかし、SASにおけるGenAIの具体的なメリットと課題は明らかでない。
    論文  参考訳(メタデータ)   (Thu, 04 Dec 2025 11:13:43 GMT)
  • Self-adaptive system(「Effective self-adaptation typically relies on a set of four crucial functions or capabilities (i) to monitor their operational environment and their own state; (ii) to analyze the current situation, determine whether the goals are achieved and if not evaluate the options to adapt the system, (iii) to plan an adaptation of the system for the best adaptation option, and (iv) to execute the plan and adapt the system accordingly.」)のサーベイ。

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

  • From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.4]
    大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。 コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。 一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 17:14:33 GMT)
  • ソフトウェア開発におけるAI活用に関する包括的なサーベイ。
  • 1ページ目の図が攻めている一方で納得感もある。

An Empirical Study of Agent Developer Practices in AI Agent Frameworks 

  • An Empirical Study of Agent Developer Practices in AI Agent Frameworks [59.9]
    大規模言語モデル(LLM)の台頭はエージェントへの関心の高まりを引き起こし、エージェントフレームワークの急速な成長につながった。 エージェントフレームワークが広く使われているにもかかわらず、それらの実践的応用とエージェント開発プロセスにどのように影響するかは未解明のままである。 開発者の80%以上が、特定の開発要件に最も適合するフレームワークを特定するのに苦労していると報告している。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 17:52:15 GMT)
  • エージェントフレームワークのサーベイ。
  • 「Specifically, we find that (i) Langchain and CrewAI lower the technical threshold for beginners. (ii) AutoGen and LangChain excel at rapid prototyping. (iii) In terms of functional encapsulation, AutoGen and LangChain are leading in task decomposition and multi-agent collaboration. (iv) Performance optimization is a common shortcoming across all frameworks. (v) Despite their mature ecosystems, AutoGen and LangChain face the highest maintenance complexity.」とのこと。
  • メンテナンスについては「6.2.5 Maintainability.」でほとんどのフレームワークが酷評されている・・・

Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey 

  • Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey [14.1]
    大型言語モデル (LLMs) は科学的アイデアの有望な生成元として登場した。 この調査は、科学的健全性による創造性へのアプローチの違いについて調査する。
    論文  参考訳(メタデータ)   (Wed, 12 Nov 2025 01:00:43 GMT)