コンテンツへスキップ
- Self-evolving Embodied AI [31.5]
エンボディード・人工知能(英語: Embodied Artificial Intelligence、AI)は、エージェントとその環境によって、能動的知覚、具体的認知、行動相互作用を通じて形成されるインテリジェントなシステムである。 本稿では,エージェントが変化状態と環境に基づいて動作する新たなパラダイムである,自己進化型エンボディAIを紹介する。
論文 参考訳(メタデータ) (Wed, 04 Feb 2026 10:40:34 GMT)
- Embodiedかつ自己進化するAIに関する紹介、サーベイ。夢物語ではなくなっている点に驚く。
- UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents [50.1]
オンライン強化学習(RL)は、直接的な環境相互作用を通じてGUIエージェントを強化するための有望なパラダイムを提供する。 階層的エクスペリエンスメモリによるGUIオンラインRLを強化する新しいフレームワークであるUI-Memを提案する。 UI-Memは従来のRLベースラインや静的再利用戦略よりも大幅に優れています。
論文 参考訳(メタデータ) (Thu, 05 Feb 2026 16:21:43 GMT)
- 「constructs a hierarchical, self-evolving memory that decom- poses raw experiences into reusable workflows, subtask skills, and failure patterns. We utilized this memory through a stratified group sampling mechanism tailored for GRPO, which balances memory-guided exploitation with necessary exploration to facilitate effective advantage estimation.」とGUIエージェントのためのメモリ機能提案。
- リポジトリはUI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents
- InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery [138.0]
InternAgent-1.5は、エンドツーエンドの科学的発見を目的とした統合システムである。 このシステムは、生成、検証、進化のための3つの調整されたサブシステムで構成される構造化アーキテクチャ上に構築されている。 InternAgent-1.5をGAIA,HLE,GPQA,FrontierScienceなどの科学的推論ベンチマークで評価した。
論文 参考訳(メタデータ) (Mon, 09 Feb 2026 18:36:06 GMT)
- 「A Unified Architecture for End-to-end Scientific Discovery: InternAgent-1.5 organizes the scientific discovery process into three coherent subsystems for Generation, Verification, and Evolution. These subsystems support the full cycle of hypothesis formulation, methodological evaluation, and evidence driven refinement through foundational capabilities for deep research, solution refinement, and long horizon memory.」と科学的な発見を目指したAgentic Frameworkの提案。
- リポジトリはGitHub – InternScience/InternAgent: InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery
- Self-Improving Pretraining: using post-trained models to pretrain better models [40.2]
本稿では、文書をストリームし、強化学習(RL)を用いて次のK生成トークンを各ステップで改善する新しい事前学習手法を提案する。 実験では, 実効性と安全性の点で標準事前訓練よりも36.2%と18.5%の相対的な改善が得られ, 総生産品質の86.3%まで向上した。
論文 参考訳(メタデータ) (Thu, 29 Jan 2026 07:09:30 GMT)
- 「Our work re-envisions pretraining by using a strong post-trained model to provide superior supervision signals. This works in two ways: (i) by providing rewrites on the original streaming pretrain data; and (ii) by acting as a judge. (i) We showed that such a self-improving setup can improve the factuality, safety and overall generation quality of pretrained models.」というフレームの提案。効果はありそうと思いつつ、これを実行できる研究機関がどれくらいあるかは気になるところ。Discussionの「Going further, there are other aspects of a powerful model one may wish for pretraining to also capture, i.e. other skills! – an obvious one being stronger reasoning ability.」を含めて・・・。
- EvoFSM: Controllable Self-Evolution for Deep Research with Finite State Machines [23.1]
EvoFSMは、明示的な有限状態マシンを進化させ、適応性と制御の両方を達成する構造化自己進化フレームワークである。 EvoFSMは、小さな制約された操作によってFSMを洗練し、また、再利用可能な事前および障害パターンとして成功したトラジェクトリを蒸留する自己進化メモリも組み込む。 特に、EvoFSMはDeepSearchベンチマークで58.0%の精度に達する。
論文 参考訳(メタデータ) (Wed, 14 Jan 2026 13:19:13 GMT)
- 「EvoFSM first models the complex retrieval-reasoning process as an explicit Finite State Machine (FSM) (Wu et al , 2024). By decomposing uncertain, long-horizon tasks into a state graph with clear transition logic, we establish deterministic behavioral boundaries that guarantee foundational stability. Second, to mitigate the uncontrollability of evolution, EvoFSM employs a “Structured Self-Evolution” mechanism. Rather than allowing free-form rewriting, we restrict the system to modifying the FSM topology only via a set of atomic operations guided by a critic mechanism. This targeted adjustment ensures the system flexibly adapts to new tasks without compromising functional integrity.」というアプローチの提案。コード生成を介するよりも効率的なのだろうか・・・?
- リポジトリはhttps://github.com/QuantaAlpha/EvoFSM
- Dr. Zero: Self-Evolving Search Agents without Training Data [34.9]
我々は,検索エージェントがトレーニングデータなしで効果的に自己開発できるフレームワークであるDr. Zeroを紹介した。 特に,提案者が多様な質問を生成する自己進化フィードバックループを設計し,同じベースモデルから問題解決者を訓練する。 トレーニング効率を向上させるため、ホップ群相対ポリシー最適化(HRPO)も導入する。
論文 参考訳(メタデータ) (Sun, 11 Jan 2026 20:27:55 GMT)
- 「We introduced Dr. Zero, a data-free self-evolution framework that enhances the reasoning and search capabilities of language agents. By utilizing an iterative proposer-solver training paradigm, Dr. Zero autonomously generates diverse and increasingly challenging open-domain questions without relying on training data. In addition, the proposed HRPO effectively addresses the computational bottlenecks of multi-turn tool use, enabling efficient training by clustering structurally similar queries to estimate advantages.」とproposerとsolverを分けるアプローチ。
- リポジトリはGitHub – facebookresearch/drzero: Dr. Zero Self-Evolving Search Agents without Training Data
- Enhancing LLM Planning Capabilities through Intrinsic Self-Critique [34.8]
検証器などの外部ソースを使わずに、本質的な自己批判を通じてデータセットを計画する際の顕著な性能向上を示す。 自己批判が計画のパフォーマンスを大幅に向上させる方法について説明する。
論文 参考訳(メタデータ) (Tue, 30 Dec 2025 09:23:25 GMT)
- 「Each iteration of the self-improvement mechanism comprises two key steps: i) plan generation and ii) self-critiquing, aimed at iteratively refining LLM outputs. In step i), the LLM generates a plan (symbolized by a map) based on a prompt incorporating domain-specific knowledge and instructions (symbolized by the treasure chest). Step ii) involves a self-critique mechanism where the LLM evaluates its own performance, providing correctness assessments and justifications, again leveraging domain knowledge.」と自己批判による改善手法の提案。
- それなりに使われるテクニックであるとは思うのだが、イテレーションを含めしっかりと検証されていてとても参考になる。
- MemEvolve: Meta-Evolution of Agent Memory Systems [66.1]
自己進化型メモリシステムは、大型言語モデル(LLM)ベースのエージェントの進化パラダイムを前例のない形で再構築している。 MemeEvolveは、エージェントの経験的知識とメモリアーキテクチャを共同で進化させるメタ進化フレームワークである。 EvolveLabは、12の代表的なメモリシステムをモジュール設計空間に蒸留する、統一された自己進化型メモリである。
論文 参考訳(メタデータ) (Sun, 21 Dec 2025 14:26:14 GMT)
- 「we introduce MemEvolve, a framework that facilitates the dual evolution of an agent’s experience and its memory architecture. Conceptually, MemEvolve operates as a bilevel optimization process: the inner loop performs a first-order evolution, where the agent, guided by a fixed memory system, adapts to a continuous stream of new tasks by populating its experience base. The outer loop drives a second-order evolution, meta-learning a more effective memory architecture to accelerate future learning. This allows the agent not only to evolve, but to evolve more efficiently and intelligently over time.」とMemory機構自体が適応していくタイプのフレームワークの提案。面白い一方で他のベンチマークでのスコアも気になるところ。
- リポジトリはGitHub – bingreeky/MemEvolve: MemEvolve & EvolveLab