AI Memory関連の論文、ベンチマーク

先週はAI Memory関連の論文が多く出ていた。ベンチマークも増えていて重要かつ熱い分野。

  • EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.8]
    EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。 このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。 広範な評価により、どのLLMもすべてのメモリ次元において一貫して他を上回ることはないことが明らかになりました。 
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 03:14:42 GMT)
  • メモリ機能のためのベンチマーク
  • リポジトリはGitHub – shenye7436/EvolMem
  • Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.4]
    大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。 既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。 本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 08:24:16 GMT)
  • 長期・短期記憶を統一的に扱うアプローチ、「we propose Agentic Memory (Age- Mem), a unified memory management framework that enables LLM-based agents to jointly control long-term and short-term memory through learn- able, tool-based actions. By integrating memory operations directly into the agent’s policy and training them with a progressive reinforcement learning strategy, AgeMem replaces heuristic memory pipelines with an end-to-end optimized solution. Extensive experiments across diverse long-horizon benchmarks show that AgeMem improves both task performance and memory quality while maintaining efficient context usage.」
  • EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning [42.3]
    大きな言語モデル(LLM)は、長期の対話エージェントとしてますますデプロイされているが、その限られたコンテキストウィンドウは、拡張された相互作用よりもコヒーレントな振舞いを維持するのが困難である。 本稿では,EverMemOSについて紹介する。EverMemOSは,計算メモリにエミュレートされたライフサイクルを実装した自己組織型メモリオペレーティングシステムである。 EverMemOSは、メモリ拡張推論タスクで最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 14:39:43 GMT)
  • 「We introduce EverMemOS, a self-organizing memory operating system that implements an engram- inspired lifecycle for computational memory. Episodic Trace Formation converts dialogue streams into MemCells that capture episodic traces, atomic facts, and time-bounded Foresight signals. Semantic Consolidation organizes MemCells into thematic MemScenes, distilling stable semantic structures and updating user profiles. Reconstructive Recollection per- forms MemScene-guided agentic retrieval to compose the necessary and sufficient context for downstream reasoning. Experiments on LoCoMo and LongMemEval show that EverMemOS achieves state-of-the-art performance on memory-augmented reasoning tasks.」とのこと
  • リポジトリはGitHub – EverMind-AI/EverMemOS: EverMemOS is an open-source, enterprise-grade intelligent memory system. Our mission is to build AI memory that never forgets, making every conversation built on previous understanding.
  • Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction [35.2]
    エージェントのメモリ依存を明示的かつユーザ制御可能な次元としてモデル化できることを示す。 Steerable Memory Agent, SteeMを提案する。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 16:54:30 GMT)
  • 「We then propose Steerable Memory Agent, SteeM, a framework that allows users to dynamically regulate memory reliance, ranging from a fresh- start mode that promotes innovation to a high- fidelity mode that closely follows interaction history.」とMemoryの利用度を制御するアイデア
  • SimpleMem: Efficient Lifelong Memory for LLM Agents [73.7]
    セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。 本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。 ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 21:02:49 GMT)
  • 「SimpleMem mitigates context inflation through three stages. (1) Semantic Structured Compression filters redundant interaction content and reformulates raw dialogue into compact, context-independent memory units. (2) Recursive Consolidation incrementally organizes related memory units into higher-level abstract representations, reducing redundancy in long-term memory. (3) Adaptive Query-Aware Retrieval dynamically adjusts retrieval scope based on query complexity, enabling efficient context construction under constrained token budgets.」というアプローチ。効果は大きそうではあるものの、これをもって「Semantic Lossless Compression」といってよいのだろうかというのは若干疑問。
  • リポジトリはGitHub – aiming-lab/SimpleMem: SimpleMem: Efficient Lifelong Memory for LLM Agents

SciEvalKit, HiSciBench

    科学に関するベンチマークが複数出ていた。AI for Scienceの流行もあってベンチマークが充実しつつある、

    • SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence [99.3]
      SciEvalKitは、科学知能のコア能力に焦点を当てている。 物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。 このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
      論文  参考訳(メタデータ)   (Fri, 26 Dec 2025 17:36:02 GMT)
    • プロジェクトサイトはOpenCompass司南、現状、Gemini 3 Pro > Qwen3 MAX > GPT-5とQwenが上位に入っているのが興味深い
    • HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.9]
      HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
      論文  参考訳(メタデータ)   (Sun, 28 Dec 2025 12:08:05 GMT)
    • こちらは「The benchmark will be publicly released to facilitate future research.」とあるが、データはまだ公開されていない?

    MiMo-V2-Flash, K-EXAONE

    • MiMo-V2-Flash Technical Report [101.1]
      我々は309Bの総パラメータと15Bのアクティブパラメータを持つMixture-of-Experts(MoE)モデルであるMiMo-V2-Flashを提案する。 MiMo-V2-Flashは、スライディングウインドウ・アテンション(SWA)をインターリーブするハイブリッドアテンションアーキテクチャを採用している。 このモデルは、Multi-Token Prediction (MTP)で27兆トークンで事前トレーニングされ、ネイティブ32kコンテキスト長を使用し、256kまで拡張された。
      論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 05:52:17 GMT)
    • Xiaomiによる高効率なLLM/LRM。pre trainingのトークン量も多い。Gemini 3のときも指摘されていたが、データ側のスケーリングの有効性がいまだ続いていそうな印象を受ける。
    • リポジトリはGitHub – XiaomiMiMo/MiMo-V2-Flash: MiMo-V2-Flash: Efficient Reasoning, Coding, and Agentic Foundation Model
    • K-EXAONE Technical Report [76.2]
      K-EXAONEはLG AI Researchが開発した大規模多言語言語モデルである。 256Kのコンテキストウィンドウをサポートし、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語をカバーしている。 我々はK-EXAONEを、推論、エージェント、一般、韓国語、多言語能力にまたがる総合的なベンチマークスイートで評価した。
      論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 02:30:59 GMT)
    • K EXAONEのテクニカルレポート。236B(active 23B)と規模が大きいとはいえ、gpt-oss-120B highよりも(概ね)高い性能を出せている。
    • リポジトリはGitHub – LG-AI-EXAONE/K-EXAONE: Official repository for K-EXAONE built by LG AI Research

    From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence 

    • From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence [91.5]
      エピプレキシティ(英: Epiplexity)とは、計算的に境界付けられた観測者がデータから学べるものを捉える情報の形式化である。 計算によってどのように情報を生成するか、データの順序にどのように依存するか、そしてモデリングがデータ生成プロセス自体よりも複雑なプログラムを生成する可能性を示す。
      論文  参考訳(メタデータ)   (Tue, 06 Jan 2026 18:04:03 GMT)
    • 分野・キーワードとしてはシャノンの情報量やコルモゴロフ複雑性のようなイメージで、Epiplexity(we define a new information measure, epiplexity (epistemic complexity), which formally defines the amount of structural information that a computationally-bounded observer can extract from the data. Briefly, epilexity is the information in the model that minimizes the description length of data under computational constraints.)を提案。機械学習を実務適用しているときに言う「情報」に近しい印象。
    • そのものが役に立つかというよりは考え方として非常に面白い内容。

    Qwen3-VL-Embedding, Qwen3-VL-Reranker, e5-omni

    マルチモーダルな埋め込み手法の論文が発表されている。1つめは Qwen familyでembeddingモデルそのものとrerankerモデル。2つ目は手法の提案でVLMのバックボーンをオムニモーダルに変換していくタイプ。分散表現を得るのもマルチモーダル化が進んでいくのは興味深いところ。

    • Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking [80.5]
      本稿では,Qwen3-VL-EmbeddingとQwen3-VL-Rerankerモデルシリーズを紹介する。 Qwen3-VL-Embeddingモデルでは、意味的にリッチな高次元ベクトルを生成するためのマルチステージトレーニングパラダイムを採用している。 Qwen3-VL-Rerankerはクエリ-ドキュメントペアの詳細な関連性推定を行う。
      論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 08:36:06 GMT)
    • リポジトリはGitHub – QwenLM/Qwen3-VL-Embedding
    • e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings [91.3]
      市販の視覚言語モデルをロバストなオムニモーダル埋め込みモデルに適応させる軽量な明示的アライメントレシピであるe5-omniを提案する。 e5-omniは、類似度尺度を整合させるためにモード対応温度校正と、混乱する負の点に焦点を合わせた制御可能な負のカリキュラムと、クロスモーダル幾何に適合するバッチホワイトニングを組み合わせる。 MMEB-V2とAudioCapsの実験では、強いバイモーダルおよびオムニモーダルベースラインよりも一貫した利得を示した。
      論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 07:39:40 GMT)
    • リポジトリはHaon-Chen/e5-omni-7B · Hugging Face

    Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs

    • Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs [43.4]
      本稿では,対称/逆三重項からテキストを生成する合成フレームワークを提案し,GPTスタイルの自己回帰モデルをスクラッチから訓練し,記憶,論理推論,文脈内一般化を評価する。 浅層(2-3層)モデルにおいても,関係性セマンティクスが十分な論理量制御によって出現し,その一般化が安定な中間層信号と一致していることが判明した。
      論文  参考訳(メタデータ)   (Tue, 06 Jan 2026 11:20:38 GMT)
    • AutoregressiveなLMにおいて「単に覚える」から一般化されるまでの状況を分析した非常に興味深い研究。「In our results, we observe a sharp phase transition in which relational semantics emerge with sufficient logic-bearing supervision, even in shallow (2–3 layer) models, and successful generalization aligns with stable intermediate-layer signals. Moreover, order-matched forward/reverse tests indicate that reversal failures are primarily driven by AR order bias rather than deficient inversion semantics」とのこと。

    OpenOneRec

    • OpenOneRec Technical Report [99.2]
      OneRecシリーズは、断片化されたレコメンデーションパイプラインをエンドツーエンドの生成フレームワークにうまく統合した。 OneRec Foundation (1.7B と 8B) は、新しい最先端(SOTA)を確立するモデルのファミリであり、RecIF-Benchのすべてのタスクにまたがる結果である。 Amazonベンチマークに移行すると、当社のモデルは10種類のデータセットに対して平均26.8%のRecall@10の改善により、最強のベースラインを越えた。
      論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 10:15:53 GMT)
    • レコメンデーションをE2E化するモデル「To facilitate reproducibility and scalable research, we open-sourced a full-stack training pipeline—including data processing, co-pretraining, and post-training protocols—and validated the scaling laws of recommendation ca- pabilities. Extensive experiments demonstrate that our OpenOneRec-Foundation models achieve state-of-the-art performance across RecIF-Bench and show exceptional transferability to external domains, proving the efficacy of our unified generative paradigm.」とオープンな取り組み。
    • リポジトリはGitHub – Kuaishou-OneRec/OpenOneRec: An Open Foundation Model and Benchmark to Accelerate Generative Recommendation

    End-to-End Test-Time Training for Long Context 

    • End-to-End Test-Time Training for Long Context [98.4]
      アーキテクチャ設計よりも継続学習における問題として,長文言語モデリングを定式化する。 我々のモデルは、与えられたコンテキストの次から次までの予測を通じてテスト時に学習を続け、読み込んだコンテキストを重みに圧縮します。 全体として、テストタイムトレーニング(TTT)の一形態であるE2E(End-to-End)は、テスト時(次世代の予測)とトレーニング時(メタラーニング)の両方である。
      論文  参考訳(メタデータ)   (Mon, 29 Dec 2025 18:30:14 GMT)
    • 「our model continues learning at test time via next-token prediction on the given context, compressing the context it reads into its weights. In addition, we improve the model’s initialization for learning at test time via meta-learning at training time. Overall, our method, a form of Test-Time Training (TTT), is End-to-End (E2E) both at test time (via next-token prediction) and training time (via meta-learning), in contrast to previous forms.」というTest-Time Trainingに関する報告
    • リポジトリはGitHub – test-time-training/e2e: Official JAX implementation of End-to-End Test-Time Training for Long Context

    mHC: Manifold-Constrained Hyper-Connections

    • mHC: Manifold-Constrained Hyper-Connections [43.9]
      ハイパーコネクション(HC)は、残流幅を拡大し、接続パターンを多様化することで、ユビキタスな残差接続パラダイムを拡張した。 残留接続に固有のアイデンティティマッピング特性を復元するために,manifold-Constrained Hyper-Connection (mHC)を提案する。 mHCは大規模なトレーニングに有効で、具体的なパフォーマンス改善と優れたスケーラビリティを提供する。
      論文  参考訳(メタデータ)   (Wed, 31 Dec 2025 14:16:26 GMT)
    • DeepseekによるHyper-Connectionsからの改善提案。「mHC yields comprehensive improvements, consistently outperforming the baseline and surpassing HC on the majority of tasks. Notably, compared to HC, mHC further enhances the model’s reasoning capabilities, delivering performance gains of 2.1% on BBH (Suzgun et al , 2022) and 2.3% on DROP (Dua et al , 2019).」と効果を確認。27Bと相応の規模で実験をしている点もさすがというところ。
    • MATHについてはHCに僅差ではあるが負けていて理由が気になるところではある。

    FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading

    • FineFT: Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading [39.8]
      The Efficient and Risk-Aware Ensemble Reinforcement Learning for Futures Trading (FineFT)は、安定したトレーニングと適切なリスク管理を備えた新しいアンサンブルフレームワークである。 ファイナンシャルFTは6つの財務指標において12SOTAベースラインを上回り、リスクを40%以上削減する一方で、ランナーに比べて優れた収益性を実現している。
      論文  参考訳(メタデータ)   (Mon, 29 Dec 2025 11:56:33 GMT)
    • 「This paper proposes FineFT, a novel three-stage ensemble RL ap- proach for handling high stochasticity and risk for unseen markets in futures trading. First, an ETD error is computed to update the learner selectively to improve data efficiency and performance. Then, the ensemble is back-tested on various dynamics modelled by VAEs. Finally, we utilize risk-aware heuristic routing to avoid po- tential loss caused by epistemic uncertainty. Extensive experiments show FineFT’s high profitability and strong risk management.」と凝ったアプローチ。リポジトリが公開されているのがありがたい。
    • リポジトリはGitHub – qinmoelei/FineFT_code_space

    金融分野のLLMとしては下記も発表されていた。

    • QianfanHuijin Technical Report: A Novel Multi-Stage Training Paradigm for Finance Industrial LLMs [30.7]
      本稿では、金融分野のLLMであるQianfan Huijinを紹介し、産業モデル強化のための一般化可能な多段階トレーニングパラダイムを提案する。 我々のアプローチは、知識基盤を統合するための財務コーパスの継続事前学習(CPT)から始まります。 金融SFTから始まり、ファイナンス推論RLとファイナンスエージェントRLに進み、ジェネラルRLで終了する。
      論文  参考訳(メタデータ)   (Tue, 30 Dec 2025 16:10:51 GMT)
    • 複数ステージによる金融強化型LLM。クローズモデルのようだが、性能向上幅など参考になる。