Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution

  • Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution [52.8]
    我々は静的ストレージと動的推論のギャップを埋めるため、$textbfReMe$ ($textitRemember Me, Refine Me$)を提案する。 ReMeは3つのメカニズムを通じてメモリライフサイクルを革新する: $textitmulti-faceted distillation$, きめ細かい経験を抽出する。 BFCL-V3とAppWorldの実験では、ReMeが新しい最先端のエージェントメモリシステムを確立している。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 14:40:01 GMT)
  • 「The ReMe framework comprises three alternating phases. The system first constructs the initial experience pool from the agent’s past trajectories. For new tasks, relevant experiences are recalled and reorganized to guide agent inference. After task execution, ReMe updates the pool, selectively adding new insights and removing outdated ones.」というMemoryフレームワーク
  • リポジトリはGitHub – agentscope-ai/ReMe: ReMe: Memory Management Kit for Agents – Remember Me, Refine Me.

Generative AI for Self-Adaptive Systems: State of the Art and Research Roadmap 

  • Generative AI for Self-Adaptive Systems: State of the Art and Research Roadmap [38.6]
    自己適応システム(SAS)はフィードバックループを通じて変化や不確実性を扱うように設計されている。 GenAIはデータの理解と論理的推論において素晴らしいパフォーマンスを示している。 しかし、SASにおけるGenAIの具体的なメリットと課題は明らかでない。
    論文  参考訳(メタデータ)   (Thu, 04 Dec 2025 11:13:43 GMT)
  • Self-adaptive system(「Effective self-adaptation typically relies on a set of four crucial functions or capabilities (i) to monitor their operational environment and their own state; (ii) to analyze the current situation, determine whether the goals are achieved and if not evaluate the options to adapt the system, (iii) to plan an adaptation of the system for the best adaptation option, and (iv) to execute the plan and adapt the system accordingly.」)のサーベイ。

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

  • From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.4]
    大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。 コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。 一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 17:14:33 GMT)
  • ソフトウェア開発におけるAI活用に関する包括的なサーベイ。
  • 1ページ目の図が攻めている一方で納得感もある。

K2-V2: A 360-Open, Reasoning-Enhanced LLM 

  • K2-V2: A 360-Open, Reasoning-Enhanced LLM [89.7]
    K2-V2は,スクラッチから構築した360度オープンLLMで,推論適応のための優れた基盤となる。 これはQwen2.5-72Bを上回り、Qwen3-235Bの性能に近づいている。
    論文  参考訳(メタデータ)   (Fri, 05 Dec 2025 22:53:45 GMT)
  • 「We introduce K2, the best fully open-source pretrained large language model (LLM) to date, and ranks competitively against the best open-weight models of its class. As the latest base model in the LLM360 family (Liu et al , 2023; Tao et al , 2024; Liu et al , 2025c; Cheng et al , 2025a), Beyond standard competencies like knowledge and conversation, K2 provides advanced capabilities, including long context consistency, deep mathematical knowledge, and reasoning behaviors. These serve as foundational building blocks that enable sophisticated downstream use cases, such as solving complex math problems and executing agentic workflows.」とオープンかつ強力な性能を主張するLLM
  • GitHub – LLM360/k2v2_train: Pre-training codebase for K2-V2LLM360/K2-V2 · Hugging Faceなどコードやモデルウェイトのみではなくデータなども公開されているよう。

An Empirical Study of Agent Developer Practices in AI Agent Frameworks 

  • An Empirical Study of Agent Developer Practices in AI Agent Frameworks [59.9]
    大規模言語モデル(LLM)の台頭はエージェントへの関心の高まりを引き起こし、エージェントフレームワークの急速な成長につながった。 エージェントフレームワークが広く使われているにもかかわらず、それらの実践的応用とエージェント開発プロセスにどのように影響するかは未解明のままである。 開発者の80%以上が、特定の開発要件に最も適合するフレームワークを特定するのに苦労していると報告している。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 17:52:15 GMT)
  • エージェントフレームワークのサーベイ。
  • 「Specifically, we find that (i) Langchain and CrewAI lower the technical threshold for beginners. (ii) AutoGen and LangChain excel at rapid prototyping. (iii) In terms of functional encapsulation, AutoGen and LangChain are leading in task decomposition and multi-agent collaboration. (iv) Performance optimization is a common shortcoming across all frameworks. (v) Despite their mature ecosystems, AutoGen and LangChain face the highest maintenance complexity.」とのこと。
  • メンテナンスについては「6.2.5 Maintainability.」でほとんどのフレームワークが酷評されている・・・

The 2025 Foundation Model Transparency Index 

  • The 2025 Foundation Model Transparency Index [85.0]
    ファウンデーションモデル開発者は世界で最も重要な企業です。 これらの企業がますますコンシークシャルになるにつれて、透明性のプラクティスはどのように進化するのでしょうか? 2025 Foundation Model Transparency Indexは、ファンデーションモデル開発者の透明性を特徴づけ、定量化するための年次取り組みの第3版である。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 00:01:53 GMT)
  • 基盤モデルの透明性に関する報告。「The 2024 FMTI reported that transparency was improving, but the 2025 FMTI finds this progress has deteriorated: the average score out of 100 fell from 58 in 2024 to 40 in 2025. Companies are most opaque about their training data and training compute as well as the post-deployment usage and impact of their flagship models.」というのは気がかりではある。
  • リポジトリはGitHub – stanford-crfm/fmti: The Foundation Model Transparency Index

Scaling Behavior of Discrete Diffusion Language Models

  • Scaling Behavior of Discrete Diffusion Language Models [74.7]
    離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。 実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。 均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 17:54:10 GMT)
  • 最近研究が進み応用事例も出てきているDiffusion language modelに対して「Our findings support the case for discrete diffusion language models (DLMs) as a viable alternative to autoregressive language models (ALMs), the prevalent paradigm. DLMs can resolve core limitations of ALMs, enabling parallel generation for improved throughput, possessing the ability to revise and self-correct previously generated tokens, providing trivial ways of scaling test-time compute, and now also showing signs of improved scaling behavior with increased training compute. All in all, we conclude that DLMs in general, and uniform diffusion in particular, are promising candidates for next-generation LLMs.」と主張。
  • リポジトリはGitHub – dvruette/gidd-easydel

GPT-5.2, Devstral 2, GLM-4.6V, Olmo 3.1

先週の大きなニュースはGPT-5.2の登場だった(GPT-5.2 が登場 | OpenAIgpt-5.2 Model | OpenAI API)非常に強力なモデルであり、Grok 4.1, Gemini 3Pro, GPT-5.1 Pro / Codex , Nano Banana Pro (Gemini Image Pro), Olmo 3, Step-Audio-R1, Omnilingual ASR – arXiv最新論文の紹介のGemini 3 Proを多くのベンチマークで抜き返すなど競争が続いている。

実態は第三者検証待ちといったところだが、手元のベンチマークでは性能が上がったところと下がったところがあり、評価は難しい。10年 | OpenAIにも注目でここ数年で大きな変化をもたらしたこと、AGIを目指せる状況になっているのは凄い。

GPT-5.2以外にも、Devstral 2(Introducing: Devstral 2 and Mistral Vibe CLI. | Mistral AImistralai/Devstral-2-123B-Instruct-2512 · Hugging Faceなど)やGLM-4.6V(GLM-4.6V: Open Source Multimodal Models with Native Tool Usezai-org/GLM-4.6V · Hugging Face)、Olmo 3.1(XユーザーのAi2さん: 「Olmo 3.1 is here. We extended our strongest RL run and scaled our instruct recipe to 32B—releasing Olmo 3.1 Think 32B & Olmo 3.1 Instruct 32B, our most capable models yet. 🧵 https://t.co/i8Ia5yGJoI」 / X)など公開モデル関連でも注目するニュースが多い。

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

  • Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing [83.5]
    我々は、人間のサイバーセキュリティ専門家に対するAIエージェントの包括的な評価を初めて提示する。 我々は、既存の6人のAIエージェントと、新しいエージェントの足場であるARTEMISとともに、10人のサイバーセキュリティ専門家を評価します。 ARTEMISは総合的に第2位で、9つの有効な脆弱性と82%の有効な提出率を発見した。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 18:12:29 GMT)
  • 「We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six existing AI agents and ARTEMIS, our new agent scaffold, on a large university network consisting of ∼8,000 hosts across 12 subnets. ARTEMIS is a multi-agent framework featuring dynamic prompt generation, arbitrary sub-agents, and automatic vulnerability triaging. In our comparative study, ARTEMIS placed second overall, discovering 9 valid vulnerabilities with an 82% valid submission rate and outperforming 9 of 10 human participants.」とAIエージェント vs 人間の比較。このような分析は今後も様々な分野で実施されていくのだと思いつつ、どのように役割分担していくのか(将来的に人間に残される要素はあるのか)など気になるところ。
  • リポジトリはGitHub – Stanford-Trinity/ARTEMIS、プロジェクトサイトはTrinity – Stanford Research

Towards a Science of Scaling Agent Systems 

  • Towards a Science of Scaling Agent Systems [79.6]
    エージェント、言語モデル(LM)ベースのシステムでは、推論、計画、行動が現実のAIアプリケーションの主要なパラダイムになりつつある。 この広く採用されているにもかかわらず、彼らのパフォーマンスを決定する原則は未定のままである。 エージェントシステムのスケーリング原理を導出することで、このギャップに対処する。
    論文  参考訳(メタデータ)   (Tue, 09 Dec 2025 06:52:21 GMT)
  • マルチエージェント化に利点があるのか?が興味深い論文。「We reveal that multi-agent performance exhibits an inverted-U relationship with coordination complexity, with benefits diminishing beyond moderate coordination levels. Domain complexity emerges as the strongest performance predictor (𝛽= −0.114, 𝑝< 0.002), reducing MAS advantage more substantially than architectural choices. Performance gains vary dramatically by task structure: +80.9% on Finance Agent versus −70.0% on PlanCraft, indicating that coordination benefits depend tightly on task decomposability.」と納得感がある(というかそうだよねという)結果