- MemEvolve: Meta-Evolution of Agent Memory Systems [66.1]
自己進化型メモリシステムは、大型言語モデル(LLM)ベースのエージェントの進化パラダイムを前例のない形で再構築している。 MemeEvolveは、エージェントの経験的知識とメモリアーキテクチャを共同で進化させるメタ進化フレームワークである。 EvolveLabは、12の代表的なメモリシステムをモジュール設計空間に蒸留する、統一された自己進化型メモリである。
論文 参考訳(メタデータ) (Sun, 21 Dec 2025 14:26:14 GMT) - 「we introduce MemEvolve, a framework that facilitates the dual evolution of an agent’s experience and its memory architecture. Conceptually, MemEvolve operates as a bilevel optimization process: the inner loop performs a first-order evolution, where the agent, guided by a fixed memory system, adapts to a continuous stream of new tasks by populating its experience base. The outer loop drives a second-order evolution, meta-learning a more effective memory architecture to accelerate future learning. This allows the agent not only to evolve, but to evolve more efficiently and intelligently over time.」とMemory機構自体が適応していくタイプのフレームワークの提案。面白い一方で他のベンチマークでのスコアも気になるところ。
- リポジトリはGitHub – bingreeky/MemEvolve: MemEvolve & EvolveLab
投稿者: staka
SpatialTree: How Spatial Abilities Branch Out in MLLMs
- SpatialTree: How Spatial Abilities Branch Out in MLLMs [109.3]
低レベル知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェント能力(L4)の4つのレベルに空間能力を整理する認知科学に着想を得た階層を導入する。 複雑な推論には役立ちますが、直感的な知覚を損ないます。 本稿では,不必要な熟考を抑制するシンプルな自己思考戦略を提案する。
論文 参考訳(メタデータ) (Tue, 23 Dec 2025 18:59:46 GMT) - 「Spatial abilities refer to the capacity to perceive, understand, reason about, and interact with 2D and 3D space, a long-standing topic in cognitive science [13, 45, 48]. In multimodal large language models (MLLMs), these abilities form the cornerstone of Spatial Intelligence (SI), yet remain challenging to study systematically due to their inherent complexity and broad scope [31, 63].」とのことでSpatial abilitiesを測るベンチマークを構築している。4レベルは下記の通り。
- L1 Perception: This level focuses on native perception of space, capturing raw geometric and physical attributes such as size, distance, and motion, without relying on language or symbolic reasoning.
- L2 Mental Mapping: This level maps spatial perception to language, grounding spatial concepts in linguistic semantics and forming language-structured spatial memory.
- L3 Mental Simulation: This level supports internal reasoning about space, enabling mental simulation, including causal reasoning about dynamics, relational and geometric problem solving, and sequential planning for actions and navigation.
- L4 Spatial Agent: This level executes actions in space, integrating perception, language, and reasoning to interact with the environment, interpret feedback, and complete long-horizon spatial tasks.
- リポジトリはSpatialTree – How Spatial Abilities Branch Out in MLLMs、リーダーボードのモデル群が若干古い。。
dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models
- dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models [40.0]
Diffusion Multi-modal Large Language Models (dMLLMs) は画像生成と理解を統一する新しいアーキテクチャとして最近登場した。 提案するdMLLM-TTSは,2つの相補的スケーリング軸上で動作し,その全生成ポテンシャルを解放する新しいフレームワークである。 我々のフレームワークは線形探索の最大6倍の効率で生成品質を大幅に向上させる。
論文 参考訳(メタデータ) (Mon, 22 Dec 2025 14:31:58 GMT) - Diffusion Multi-modal Large Language Models (dMLLMs) におけるTest Time Scaling (TTS)手法の研究。「We present the Hierarchical Trajectory Search, which optimizes efficiency, achieving O(N +T) complexity, outperforming conventional linear search baseline with O(NT) complexity. • Superior Performance. The proposed TTS framework elevates dMLLMs to match state-of-the-art generation models, significantly boosting image quality.」と効果的・効率的な手法を提案とのこと。
- リポジトリはGitHub – Alpha-VLLM/Lumina-DiMOO: Lumina-DiMOO – An Open-Sourced Multi-Modal Large Diffusion Language Model
MMGR: Multi-Modal Generative Reasoning
- MMGR: Multi-Modal Generative Reasoning [97.4]
本稿では,5つの推論能力に基づく基本的評価フレームワークMMGRを紹介する。 MMGRは、抽象推論(Abstract Reasoning)、体操ナビゲーション(Embodied Navigation)、物理コモンセンス(Physical Commonsense)の3つの領域にわたる生成的推論を評価する。 主要映像モデル(Veo-3, Sora-2, Wan-2.2)と画像モデル(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)をベンチマークする。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 18:42:37 GMT) - 「We argue that for video generation to evolve from mere image animation to genuine world modeling (Ha & Schmidhuber, 2018; LeCun, 2022), models must acquire foundational reasoning capabilities akin to human intuitive physics and cognition. Moving beyond superficial fidelity (Huang et al , 2024; Liu et al , 2024b), we propose a formal evaluation framework asking: Can a video model reason about the physical and logical constraints of the content it generates? Drawing on theories of core knowledge and cognitive development (Spelke & Kinzler, 2007; Lake et al , 2017), we posit that robust world simulation rests on five complementary pillars of reasoning:」とのこと。5つは下記の通り。
- Physical Reasoning
- Logical Reasoning
- 3D Spatial Reasoning
- 2D Spatial Reasoning
- Temporal Reasoning
- リポジトリはZefan-Cai/MMGR · GitHub
Using GUI Agent for Electronic Design Automation
- Using GUI Agent for Electronic Design Automation [123.9]
Graphical User Interface (GUI)エージェントは、スクリーンショットをアクションシーケンスにマッピングするエンドツーエンドパラダイムを採用する。 既存のGUIエージェントは、Microsoft WordやExcelのようなコモディティソフトウェアにのみ評価される。 この作業は、GUIエージェントを一般的なオフィス自動化から、専門的で高価値なエンジニアリングドメインまで拡張する。
論文 参考訳(メタデータ) (Fri, 12 Dec 2025 14:49:32 GMT) - 「We introduce GUI-EDA, the first large-scale benchmark for GUI Agents in EDA, including 5 physical fields, 5 industry-standard CAD softwares, rendered at multiple resolutions.」とそれに対応する「EDAgent, fusing MLLM comprehension with GUI Agent execution under self-reflective validation.」の提案。
- リポジトリはhttps://github.com/aiben-ch/GUI-EDAとのこと
From Word to World: Can Large Language Models be Implicit Text-based World Models?
- From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.5]
エージェント強化学習は、経験駆動のスケーリングにますます依存している。 世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。 大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
論文 参考訳(メタデータ) (Sun, 21 Dec 2025 17:28:42 GMT) - 「LLMs can function as reliable world models: they exhibit internal latent dynamics that support in-context world modeling, and supervised fine-tuning substantially improves short-term predictive fidelity and enables consistent long-horizon rollouts in well-structured domains.」との指摘が興味深い。
- リポジトリはGitHub – X1AOX1A/Word2World: From Word to World: Can Large Language Models be Implicit Text-based World Models?
FrontierCS: Evolving Challenges for Evolving Intelligence
- FrontierCS: Evolving Challenges for Evolving Intelligence [174.8]
コンピュータ科学の様々な領域にまたがる156のオープンエンド問題のベンチマークであるFrontierCSを紹介する。 各問題に対して、専門家の参照ソリューションと自動評価器を提供する。 私たちは、アルゴリズムと研究のトラックに関して、フロンティア推論モデルが人間の専門家よりずっと遅れていることに気付きました。
論文 参考訳(メタデータ) (Wed, 17 Dec 2025 18:52:45 GMT) - 「we introduce FrontierCS, a coding benchmark that evaluates LLMs on solving open- ended computer science problems, where no known closed-form or deterministic optimal solution exists in practice. 」というベンチマーク。「Empirically, we find that even the strongest frontier reasoning models remain far behind human experts on both the algorithmic and research tracks of FrontierCS. Simply scaling up context length or reasoning budgets yields diminishing returns on the hardest problems, and models frequently converge to locally workable but clearly suboptimal algorithms.」とのこと。
- プロジェクトサイトはFrontierCS
Step-DeepResearch Technical Report
- Step-DeepResearch Technical Report [90.5]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。 我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。 中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (Tue, 23 Dec 2025 16:32:27 GMT) - StepFunによるディープリサーチエージェントと評価ベンチマークの提案。「Experimental results demonstrate that Step-DeepResearch, with only 32B parameters, achieves a high score of 61.4% on the Scale AI Research Rubrics. In expert human evaluations on ADR-Bench, its Elo score significantly outperforms comparable models and rivals state-of-the-art closed-source models such as OpenAI DeepResearch and Gemini DeepResearch.」と高性能を主張。実行にはAPI接続が必要でこれもclosedでは?と思わなくもない。。
- リポジトリはGitHub – stepfun-ai/StepDeepResearch: Step-DeepResearch
GLM 4.7, MiniMax M2.1 , ERNIE-5.0-Preview-1203
先週は中国のフロンティアモデルに関する発表が目立った。マイナーアップデートが多いものの着実な性能アップを実現している。GLM-4.7(XユーザーのZ.aiさん: 「GLM-4.7 is here! GLM-4.7 surpasses GLM-4.6 with substantial improvements in coding, complex reasoning, and tool usage, setting new open-source SOTA standards. It also boosts performance in chat, creative writing, and role-play scenarios. Default Model for Coding Plan: https://t.co/3vDzwof7A8」 / X、リポジトリ:zai-org/GLM-4.7 · Hugging Face)、MiniMax M2.1(XユーザーのMiniMax (official)さん: 「MiniMax M2.1 is OPEN SOURCE: SOTA for real-world dev & agents • SOTA on coding benchmarks (SWE / VIBE / Multi-SWE) • Beats Gemini 3 Pro & Claude Sonnet 4.5 • 10B active / 230B total (MoE) Not just SOTA, faster to infer, easier to deploy, and yes, you can even run it locally https://t.co/atCML3vq8C」 / X、リポジトリ:MiniMaxAI/MiniMax-M2.1 · Hugging Face)ともモデルが公開されているのがすばらしい。ERNIE 5.0(Best Text model from China in LMArena is now ERNIE-5.0-Preview-1203! | ERNIE Blog)も強力そう。
Nemotron3については論文が出ていた。強力な公開モデルが増えており、また、アップデートもされており良い時代である(?)
- NVIDIA Nemotron 3: Efficient and Open Intelligence [227.5]
ネモトロン3シリーズは強力なエージェント、推論、会話能力を提供する。 ネモトロン3モデルは、推論を可能にするマルチ環境強化学習、多段階ツールの使用、きめ細かい推論予算制御のサポートを用いて、後から訓練される。 Nemotron 3ファミリは、Mixture-of-ExpertsハイブリッドのMamba-Transformerアーキテクチャを使用して、最高レベルのスループットと最大100万トークンのコンテキスト長を提供する。
論文 参考訳(メタデータ) (Wed, 24 Dec 2025 00:24:05 GMT) - 「The Nemotron 3 family uses a Mixture-of-Experts hybrid Mamba–Transformer architecture to provide best-in-class throughput and context lengths of up to 1M tokens. 」とMambaハイブリッド、長文対応なモデル。
- Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning [223.9]
Nemotron 3 Nano 30B-A3BはMixture-of-ExpertsハイブリッドMamba-Transformer言語モデルである。 ネモトロン3ナノは25兆個のテキストトークンで事前訓練され、その中にはネモトロン2に3兆以上の新しいユニークなトークンが含まれていた。
論文 参考訳(メタデータ) (Tue, 23 Dec 2025 23:54:32 GMT) - リポジトリはnvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8 · Hugging Face
Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows
- Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.4]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。 深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。 私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (Thu, 18 Dec 2025 12:44:36 GMT) - scientific general intelligence (SGI)、「SGI is an AI that can autonomously navigate the complete, iterative cycle of scientific inquiry with the versatility and proficiency of a human scientist」の研究、ベンチマーク等も提案している。「Experiments reveal a consistent pattern: in Deep Research, models show step-level alignment but low exact-match accuracy (10–20%), with brittleness in quantitative reasoning; in Idea Generation, hypotheses are fluent but underspecified and infeasible; in Dry Experiment, code is executable but PassAll@k remains low; in Wet Experiment, sequences show omissions and misordering; and in Experimental Reasoning, causal reasoning outperforms comparative, with persistent multimodal challenges. These highlight gaps between linguistic fluency and integrated scientific cognition.」とあるなど道半ばという感じではあるが非常に流行っている分野だと思う。
- SGI-Benchの上位はGemini 3 Pro, Claude Sonnet 4.5, Qwen3 Max, GPT-4.1, GPT-5.2 Proと各社のフロンティアモデルが並ぶ。
- リポジトリはSGI-Bench — Scientific General Intelligence