Driving on Registers 

  • Driving on Registers [95.3]
    DrivoRは、エンドツーエンドの自動運転のためのシンプルで効率的なトランスフォーマーベースのアーキテクチャである。 提案手法は、事前訓練された視覚変換器(ViT)上に構築され、マルチカメラ機能をコンパクトなシーン表現に圧縮するカメラ対応レジスタトークンを導入している。 この結果から,純変圧器アーキテクチャと目標トークン圧縮を組み合わせることで,高精度で適応的なエンド・ツー・エンド・ドライブを実現するのに十分であることが示唆された。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 16:28:24 GMT)
  • 自動運転のEnd-to-end (E2E) planning、「The proposed architecture is composed of three transformer blocks: one encoder (perception) and two decoders (trajectory and scoring). The perception encoder compresses perceptual information in camera-aware registers for lightweight subsequent processing in the trajectory and scoring decoders. The decoded trajectories are re-embedded and detached from the gradient computation graph to disentangle scoring and generation. The final trajectory is chosen from the proposal set via the max predicted score」とアーキテクチャも考え方はシンプルに見える。
  • プロジェクトサイトはDriving on Registers

AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents 

  • AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents [69.4]
    メモリは過去と未来の重要なネクサスブリッジとして機能する。 自律エージェントに関する最近の研究は、認知神経科学に基づいて効率的な記憶を設計することに集中している。
    論文  参考訳(メタデータ)   (Mon, 29 Dec 2025 10:01:32 GMT)
  • 研究開発が急速に進むMemoryに関するサーベイ、「we first elucidate the definition and function of memory along a progressive trajectory from cognitive neuroscience through LLMs to agents. We then provide a comparative analysis of memory taxonomy, storage mechanisms, and the complete management lifecycle from both biological and artificial perspectives. Subsequently, we review the mainstream benchmarks for evaluating agent memory. Additionally, we explore memory security from dual perspectives of attack and defense. Finally, we envision future research directions, with a focus on multimodal memory systems and skill acquisition」
  • リポジトリはGitHub – AgentMemory/Huaman-Agent-Memory

Extracting books from production language models

  • Extracting books from production language models [65.9]
    同様の抽出がLLMの生産に可能であるかどうかについては、未解決のままである。 ジェイルブレイクされたクロード3.7 ソンネットは、全書籍をほぼ全文出力する場合もある。 モデルおよびシステムレベルのセーフガードであっても、(コピーライト内での)トレーニングデータの抽出はLLM生産のリスクである。
    論文  参考訳(メタデータ)   (Tue, 06 Jan 2026 03:01:27 GMT)
  • 「With a simple two-phase procedure (Section 3), we show that it is possible to extract large amounts of in-copyright text from four production LLMs. While we needed to jailbreak Claude 3.7 Sonnet and GPT-4.1 to facilitate extraction, Gemini 2.5 Pro and Grok 3 directly complied with text continuation requests. For Claude 3.7 Sonnet, we were able to extract four whole books near-verbatim, including two books under copyright in the U.S.: Harry Potter and the Sorcerer’s Stone and 1984 (Section 4).」とのこと。
  • 「our main focus is to make technical contributions to machine learning, not copyright law or policy. 」という記載はあるものの、また、今までもこの手の攻撃が可能なことが知られていたものの、議論を呼びそうな論文。

NitroGen: An Open Foundation Model for Generalist Gaming Agents 

  • NitroGen: An Open Foundation Model for Generalist Gaming Agents [101.4]
    NitroGenは、ジェネラリストゲームエージェントのためのビジョンアクション基盤モデルである。 1000以上のゲームで4万時間のゲームプレイビデオでトレーニングされている。
    論文  参考訳(メタデータ)   (Sun, 04 Jan 2026 16:24:50 GMT)
  • 「: (1) Multi-game foundation agent (center) – a generalist vision-action model that takes in game observations and generates gamepad actions, enabling zero-shot gameplay across multiple titles and serving as a foundation for fine-tuning on new games; (2) Universal simulator (left) – an environment wrapper that allows any commercial game to be controlled through a Gymnasium API; and (3) Internet-scale dataset (right) – the largest and most diverse open-source gaming dataset curated from 40,000 hours of publicly available gaming videos, spanning more than 1,000 games with extracted action labels.」とゲームの基盤モデル
  • プロジェクトサイトはNitroGen | A Foundation Model for Generalist Gaming Agents

Event Extraction in Large Language Model

  • Event Extraction in Large Language Model [99.9]
    私たちは、LLM中心のソリューションに認知的な足場を提供するシステムコンポーネントとして、EEは見なされるべきである、と論じます。 この調査では、EEのテキストとマルチモーダル設定、タスクと分類の整理、ルールベースとニューラルモデルから命令駆動および生成フレームワークへのメソッド進化のトレースについて取り上げている。
    論文  参考訳(メタデータ)   (Mon, 22 Dec 2025 16:22:14 GMT)
  • event extraction(Event extraction (EE) is a core task in natural language processing that aims to identify event triggers, event types, and participant roles from unstructured text, and to organize them into a computable structured representation [27]. )に関するサーベイ。LLMが大きな影響を与えたタスクであり、このSurveyでは「 in the LLM era, the value of EE lies less in being the only path to structured outputs, and more in providing a structural backbone for verification, reasoning, retrieval, and agent memory.」とも指摘している。
  • リポジトリはGitHub – unikcc/AwesomeEventExtraction

Mind2Report: A Cognitive Deep Research Agent for Expert-Level Commercial Report Synthesis

  • Mind2Report: A Cognitive Deep Research Agent for Expert-Level Commercial Report Synthesis [43.8]
    Mind2Reportは、専門家レベルのレポートを合成するために商業アナリストをエミュレートする、認知的なディープリサーチエージェントである。 具体的には、まずきめ細かな意図を探索し、それからWebソースを検索し、蒸留情報を記録し、その後、レポートを反復的に合成する。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 12:27:52 GMT)
  • 「In this work, we propose Mind2Report, a cognitive DRA that synthesizes expert-level commercial reports shown in Figure 1. To clarify imprecise queries, it probes fine-grained intent through proactive questioning, which guides a preliminary search to construct the outline. Subsequently, to maintain context efficiency, it expands queries progressively while distilling information into a dynamic memory via multi-dimensional self-reflection. Finally, Mind2Report merges discrete knowledge from the memory to iteratively synthesize coherent reports based on the established outline.」というDeepReseach系エージェントの提案。「Comprehensive experiments demonstrate that Mind2Report surpasses leading baselines such as OpenAI and Gemini deep research agents across all metrics.」とのこと。実業務を踏まえた作りこみは現在でも有効そう。
  • リポジトリはGitHub – Melmaphother/Mind2Report

AI Memory関連の論文、ベンチマーク

先週はAI Memory関連の論文が多く出ていた。ベンチマークも増えていて重要かつ熱い分野。

  • EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.8]
    EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。 このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。 広範な評価により、どのLLMもすべてのメモリ次元において一貫して他を上回ることはないことが明らかになりました。 
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 03:14:42 GMT)
  • メモリ機能のためのベンチマーク
  • リポジトリはGitHub – shenye7436/EvolMem
  • Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.4]
    大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。 既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。 本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 08:24:16 GMT)
  • 長期・短期記憶を統一的に扱うアプローチ、「we propose Agentic Memory (Age- Mem), a unified memory management framework that enables LLM-based agents to jointly control long-term and short-term memory through learn- able, tool-based actions. By integrating memory operations directly into the agent’s policy and training them with a progressive reinforcement learning strategy, AgeMem replaces heuristic memory pipelines with an end-to-end optimized solution. Extensive experiments across diverse long-horizon benchmarks show that AgeMem improves both task performance and memory quality while maintaining efficient context usage.」
  • EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning [42.3]
    大きな言語モデル(LLM)は、長期の対話エージェントとしてますますデプロイされているが、その限られたコンテキストウィンドウは、拡張された相互作用よりもコヒーレントな振舞いを維持するのが困難である。 本稿では,EverMemOSについて紹介する。EverMemOSは,計算メモリにエミュレートされたライフサイクルを実装した自己組織型メモリオペレーティングシステムである。 EverMemOSは、メモリ拡張推論タスクで最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 14:39:43 GMT)
  • 「We introduce EverMemOS, a self-organizing memory operating system that implements an engram- inspired lifecycle for computational memory. Episodic Trace Formation converts dialogue streams into MemCells that capture episodic traces, atomic facts, and time-bounded Foresight signals. Semantic Consolidation organizes MemCells into thematic MemScenes, distilling stable semantic structures and updating user profiles. Reconstructive Recollection per- forms MemScene-guided agentic retrieval to compose the necessary and sufficient context for downstream reasoning. Experiments on LoCoMo and LongMemEval show that EverMemOS achieves state-of-the-art performance on memory-augmented reasoning tasks.」とのこと
  • リポジトリはGitHub – EverMind-AI/EverMemOS: EverMemOS is an open-source, enterprise-grade intelligent memory system. Our mission is to build AI memory that never forgets, making every conversation built on previous understanding.
  • Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction [35.2]
    エージェントのメモリ依存を明示的かつユーザ制御可能な次元としてモデル化できることを示す。 Steerable Memory Agent, SteeMを提案する。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 16:54:30 GMT)
  • 「We then propose Steerable Memory Agent, SteeM, a framework that allows users to dynamically regulate memory reliance, ranging from a fresh- start mode that promotes innovation to a high- fidelity mode that closely follows interaction history.」とMemoryの利用度を制御するアイデア
  • SimpleMem: Efficient Lifelong Memory for LLM Agents [73.7]
    セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。 本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。 ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 21:02:49 GMT)
  • 「SimpleMem mitigates context inflation through three stages. (1) Semantic Structured Compression filters redundant interaction content and reformulates raw dialogue into compact, context-independent memory units. (2) Recursive Consolidation incrementally organizes related memory units into higher-level abstract representations, reducing redundancy in long-term memory. (3) Adaptive Query-Aware Retrieval dynamically adjusts retrieval scope based on query complexity, enabling efficient context construction under constrained token budgets.」というアプローチ。効果は大きそうではあるものの、これをもって「Semantic Lossless Compression」といってよいのだろうかというのは若干疑問。
  • リポジトリはGitHub – aiming-lab/SimpleMem: SimpleMem: Efficient Lifelong Memory for LLM Agents

SciEvalKit, HiSciBench

    科学に関するベンチマークが複数出ていた。AI for Scienceの流行もあってベンチマークが充実しつつある、

    • SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence [99.3]
      SciEvalKitは、科学知能のコア能力に焦点を当てている。 物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。 このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
      論文  参考訳(メタデータ)   (Fri, 26 Dec 2025 17:36:02 GMT)
    • プロジェクトサイトはOpenCompass司南、現状、Gemini 3 Pro > Qwen3 MAX > GPT-5とQwenが上位に入っているのが興味深い
    • HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.9]
      HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
      論文  参考訳(メタデータ)   (Sun, 28 Dec 2025 12:08:05 GMT)
    • こちらは「The benchmark will be publicly released to facilitate future research.」とあるが、データはまだ公開されていない?

    MiMo-V2-Flash, K-EXAONE

    • MiMo-V2-Flash Technical Report [101.1]
      我々は309Bの総パラメータと15Bのアクティブパラメータを持つMixture-of-Experts(MoE)モデルであるMiMo-V2-Flashを提案する。 MiMo-V2-Flashは、スライディングウインドウ・アテンション(SWA)をインターリーブするハイブリッドアテンションアーキテクチャを採用している。 このモデルは、Multi-Token Prediction (MTP)で27兆トークンで事前トレーニングされ、ネイティブ32kコンテキスト長を使用し、256kまで拡張された。
      論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 05:52:17 GMT)
    • Xiaomiによる高効率なLLM/LRM。pre trainingのトークン量も多い。Gemini 3のときも指摘されていたが、データ側のスケーリングの有効性がいまだ続いていそうな印象を受ける。
    • リポジトリはGitHub – XiaomiMiMo/MiMo-V2-Flash: MiMo-V2-Flash: Efficient Reasoning, Coding, and Agentic Foundation Model
    • K-EXAONE Technical Report [76.2]
      K-EXAONEはLG AI Researchが開発した大規模多言語言語モデルである。 256Kのコンテキストウィンドウをサポートし、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語をカバーしている。 我々はK-EXAONEを、推論、エージェント、一般、韓国語、多言語能力にまたがる総合的なベンチマークスイートで評価した。
      論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 02:30:59 GMT)
    • K EXAONEのテクニカルレポート。236B(active 23B)と規模が大きいとはいえ、gpt-oss-120B highよりも(概ね)高い性能を出せている。
    • リポジトリはGitHub – LG-AI-EXAONE/K-EXAONE: Official repository for K-EXAONE built by LG AI Research

    From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence 

    • From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence [91.5]
      エピプレキシティ(英: Epiplexity)とは、計算的に境界付けられた観測者がデータから学べるものを捉える情報の形式化である。 計算によってどのように情報を生成するか、データの順序にどのように依存するか、そしてモデリングがデータ生成プロセス自体よりも複雑なプログラムを生成する可能性を示す。
      論文  参考訳(メタデータ)   (Tue, 06 Jan 2026 18:04:03 GMT)
    • 分野・キーワードとしてはシャノンの情報量やコルモゴロフ複雑性のようなイメージで、Epiplexity(we define a new information measure, epiplexity (epistemic complexity), which formally defines the amount of structural information that a computationally-bounded observer can extract from the data. Briefly, epilexity is the information in the model that minimizes the description length of data under computational constraints.)を提案。機械学習を実務適用しているときに言う「情報」に近しい印象。
    • そのものが役に立つかというよりは考え方として非常に面白い内容。