Mind2Report: A Cognitive Deep Research Agent for Expert-Level Commercial Report Synthesis

  • Mind2Report: A Cognitive Deep Research Agent for Expert-Level Commercial Report Synthesis [43.8]
    Mind2Reportは、専門家レベルのレポートを合成するために商業アナリストをエミュレートする、認知的なディープリサーチエージェントである。 具体的には、まずきめ細かな意図を探索し、それからWebソースを検索し、ハエの蒸留情報を記録し、その後、レポートを反復的に合成する。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 12:27:52 GMT)
  • 「In this work, we propose Mind2Report, a cognitive DRA that synthesizes expert-level commercial reports shown in Figure 1. To clarify imprecise queries, it probes fine-grained intent through proactive questioning, which guides a preliminary search to construct the outline. Subsequently, to maintain context efficiency, it expands queries progressively while distilling information into a dynamic memory via multi-dimensional self-reflection. Finally, Mind2Report merges discrete knowledge from the memory to iteratively synthesize coherent reports based on the established outline.」というDeepReseach系エージェントの提案。「Comprehensive experiments demonstrate that Mind2Report surpasses leading baselines such as OpenAI and Gemini deep research agents across all metrics.」とのこと。実業務を踏まえた作りこみは現在でも有効そう。
  • リポジトリはGitHub – Melmaphother/Mind2Report

AI Memory関連の論文、ベンチマーク

先週はAI Memory関連の論文が多く出ていた。ベンチマークも増えていて重要かつ熱い分野。

  • EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.8]
    EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。 このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。 広範な評価により、どのLLMもすべてのメモリ次元において一貫して他を上回ることはないことが明らかになりました。 
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 03:14:42 GMT)
  • メモリ機能のためのベンチマーク
  • リポジトリはGitHub – shenye7436/EvolMem
  • Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.4]
    大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。 既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。 本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 08:24:16 GMT)
  • 長期・短期記憶を統一的に扱うアプローチ、「we propose Agentic Memory (Age- Mem), a unified memory management framework that enables LLM-based agents to jointly control long-term and short-term memory through learn- able, tool-based actions. By integrating memory operations directly into the agent’s policy and training them with a progressive reinforcement learning strategy, AgeMem replaces heuristic memory pipelines with an end-to-end optimized solution. Extensive experiments across diverse long-horizon benchmarks show that AgeMem improves both task performance and memory quality while maintaining efficient context usage.」
  • EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning [42.3]
    大きな言語モデル(LLM)は、長期の対話エージェントとしてますますデプロイされているが、その限られたコンテキストウィンドウは、拡張された相互作用よりもコヒーレントな振舞いを維持するのが困難である。 本稿では,EverMemOSについて紹介する。EverMemOSは,計算メモリにエミュレートされたライフサイクルを実装した自己組織型メモリオペレーティングシステムである。 EverMemOSは、メモリ拡張推論タスクで最先端のパフォーマンスを達成する。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 14:39:43 GMT)
  • 「We introduce EverMemOS, a self-organizing memory operating system that implements an engram- inspired lifecycle for computational memory. Episodic Trace Formation converts dialogue streams into MemCells that capture episodic traces, atomic facts, and time-bounded Foresight signals. Semantic Consolidation organizes MemCells into thematic MemScenes, distilling stable semantic structures and updating user profiles. Reconstructive Recollection per- forms MemScene-guided agentic retrieval to compose the necessary and sufficient context for downstream reasoning. Experiments on LoCoMo and LongMemEval show that EverMemOS achieves state-of-the-art performance on memory-augmented reasoning tasks.」とのこと
  • リポジトリはGitHub – EverMind-AI/EverMemOS: EverMemOS is an open-source, enterprise-grade intelligent memory system. Our mission is to build AI memory that never forgets, making every conversation built on previous understanding.
  • Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction [35.2]
    エージェントのメモリ依存を明示的かつユーザ制御可能な次元としてモデル化できることを示す。 Steerable Memory Agent, SteeMを提案する。
    論文  参考訳(メタデータ)   (Thu, 08 Jan 2026 16:54:30 GMT)
  • 「We then propose Steerable Memory Agent, SteeM, a framework that allows users to dynamically regulate memory reliance, ranging from a fresh- start mode that promotes innovation to a high- fidelity mode that closely follows interaction history.」とMemoryの利用度を制御するアイデア
  • SimpleMem: Efficient Lifelong Memory for LLM Agents [73.7]
    セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。 本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。 ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
    論文  参考訳(メタデータ)   (Mon, 05 Jan 2026 21:02:49 GMT)
  • 「SimpleMem mitigates context inflation through three stages. (1) Semantic Structured Compression filters redundant interaction content and reformulates raw dialogue into compact, context-independent memory units. (2) Recursive Consolidation incrementally organizes related memory units into higher-level abstract representations, reducing redundancy in long-term memory. (3) Adaptive Query-Aware Retrieval dynamically adjusts retrieval scope based on query complexity, enabling efficient context construction under constrained token budgets.」というアプローチ。効果は大きそうではあるものの、これをもって「Semantic Lossless Compression」といってよいのだろうかというのは若干疑問。
  • リポジトリはGitHub – aiming-lab/SimpleMem: SimpleMem: Efficient Lifelong Memory for LLM Agents

SciEvalKit, HiSciBench

    科学に関するベンチマークが複数出ていた。AI for Scienceの流行もあってベンチマークが充実しつつある、

    • SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence [99.3]
      SciEvalKitは、科学知能のコア能力に焦点を当てている。 物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。 このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
      論文  参考訳(メタデータ)   (Fri, 26 Dec 2025 17:36:02 GMT)
    • プロジェクトサイトはOpenCompass司南、現状、Gemini 3 Pro > Qwen3 MAX > GPT-5とQwenが上位に入っているのが興味深い
    • HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.9]
      HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
      論文  参考訳(メタデータ)   (Sun, 28 Dec 2025 12:08:05 GMT)
    • こちらは「The benchmark will be publicly released to facilitate future research.」とあるが、データはまだ公開されていない?