コンテンツへスキップ
- Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.1]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。 ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。 実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (Mon, 06 Oct 2025 14:48:39 GMT)
- 「Our research reveals a critical vulnerability in self-evolving LLM agents, which we term the “Alignment Tipping Process” (ATP), a phenomenon where an agent’s policy suddenly shifts from human- aligned objectives to self-serving, locally optimal behaviors. Driven either by an individual agent’s self-interested exploration or by the imitative diffusion of strategies within a group, our experiments consistently demonstrate that alignment is not a static property, but rather a fragile state actively eroded by experience.」と自己進化型エージェントでのリスクを指摘。最近出た250例程度のPoisoning Attackが有効という報告(下記)も関連し、意外とこの手の攻撃が容易そうに思える。
- リポジトリはGitHub – aiming-lab/ATP: Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
- Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples [81.7]
この研究は、データセットのサイズに関わらず、毒殺攻撃がほぼ一定数のドキュメントを必要とすることを初めて実証した。 250の有毒なドキュメントも同様に、すべてのモデルとデータセットサイズにわたってモデルを妥協している。 以上の結果から,データ中毒によるバックドア注入は,従来考えられていたよりも大型モデルの方が容易である可能性が示唆された。
論文 参考訳(メタデータ) (Wed, 08 Oct 2025 16:25:05 GMT)
- データポイゾニングが意外と容易にできるとの報告。
- Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models [18.8]
ACE(Agentic Context Engineering)は、コンテキストを進化するプレイブックとして扱うフレームワークである。 エージェントとドメイン固有のベンチマークを通じて、ACEは一貫して強力なベースラインを上回っている。 ACEは、ラベル付けされた監視なしに効果的に適応することができ、代わりに自然な実行フィードバックを活用することができる。
論文 参考訳(メタデータ) (Mon, 06 Oct 2025 09:30:18 GMT)
- 「We present ACE (Agentic Context Engineering), a framework for scalable and efficient context adaptation in both offline (e g , system prompt optimization) and online (e g , test-time memory adaptation) scenarios. Instead of condensing knowledge into terse summaries or static instructions, ACE treats contexts as evolving playbooks that continuously accumulate, refine, and organize strategies over time.」とこちらもコンテキストを記憶のように使い自己改善するアプローチに見える。
- CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards [80.8]
自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。 エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 17:50:26 GMT)
- 外部の報酬に頼らない自己進化のアプローチ、「As a new paradigm for self-evolution, CoMAS offers several distinct advantages: (1) It generates reward signals intrinsically from agent interactions, eliminating the need for verifiers or reward models. (2) The learning paradigm is generally effective for various tasks, including open-ended problems where solutions cannot be easily verified. (3) Agents are trained in a decentralized manner, allowing for co-evolution of heterogeneous systems without the bottleneck of a shared model. (4) It fosters skills that transfer to out-of-domain tasks and diverse multi-agent collaboration settings.」とのこと。
- リポジトリはGitHub – xxyQwQ/CoMAS: Implementation for the paper “CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards”.
- Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents [58.7]
エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。 我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLLM上に構築されたエージェントにも影響を及ぼすことが判明した。 我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
論文 参考訳(メタデータ) (Tue, 30 Sep 2025 14:55:55 GMT)
- 「(1) In model evolution, we assess whether self-evolving agents compromise their safety alignment after self-updating their model parameters. (2) In memory evolution, we test whether memory-augmented agents learn undesirable preferences or degrade their risk awareness while accumulating experience into memory. (3) In tool evolution, we evaluate whether agents will spontaneously induce risks in the tool creation-reuse loop, and test agents’ ability to reject appealing but potentially malicious tools retrieved from the Internet. (4) In workflow evolution, we analyze whether automatically adjusted workflows can lead to safety decay.」と4つの観点からMisevolveを評価。現実的な問題であると指摘。
- リポジトリはGitHub – ShaoShuai0605/Misevolution: Official Repo of Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents
- Self-Improving Embodied Foundation Models [21.8]
ロボット工学における2段階のポストトレーニング手法を提案する。 第1段階であるSupervised Fine-Tuning (SFT) は、a) 行動クローニングとb) ステップ・トゥ・ゴーの予測目的の両方を用いたファインチューン事前訓練基礎モデルである。 第2段階では、ステップ・トゥ・ゴー予測により、良好な形状の報酬関数と堅牢な成功検出器の抽出が可能となる。
論文 参考訳(メタデータ) (Thu, 18 Sep 2025 17:00:08 GMT)
- 「1) Supervised Fine-Tuning (SFT) wherein we fine-tune EFMs using behavioral cloning as well as “steps-to-go” prediction objectives, and 2) Self-Improvement (Online RL) wherein EFMs autonomously practice downstream tasks and rapidly improve via optimizing self-predicted rewards.」というアプローチの提案(EFM= Embodied Foundation Models)。「Finally, we demonstrated that this novel combination uniquely unlocks a capability not possible by current methods: autonomously aquiring new skills that generalize far beyond the tasks covered in the imitation learning datasets. These findings highlight the transformative potential of combining pretrained foundation models with online Self- Improvement to enable autonomous skill acquisition in robotics.」と効果があったとのこと。
- プロジェクトサイトはAnonymous Supplementary Videos for “On the Magic of Online Self-Improvement for Embodied Multimodal Foundation Models”
- Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision [26.9]
我々は、コンピュータ・アズ・教師(CaT)による調査を監督に転換することを提案する。 CaTは平行ロールアウトのグループから単一の参照を合成し、それに向けて最適化する。 テストタイムの手順として、CaTはGemma 3 4B、Qwen 3 4B、Llama 3.1 8Bを改善している。
論文 参考訳(メタデータ) (Wed, 17 Sep 2025 17:59:42 GMT)
- 「(i) verifiable tasks use programmatic equivalence on final answers; (ii) non-verifiable tasks use self-proposed rubrics—binary, auditable criteria scored by an independent LLM judge, with reward given by the fraction satisfied.」と検証困難なタスクにも効果があるのが興味深い。「CaT can be applied at test time for inference-time gains or inside RL (CaT-RL) to improve the policy.」とのこと。強化学習でも効果を確認している。
- A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [44.2]
既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。 近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。 この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (Sun, 10 Aug 2025 16:07:32 GMT)
- 自己進化に関するサーベイ。AGIが近づいている感がある。
- リポジトリはGitHub – EvoAgentX/Awesome-Self-Evolving-Agents
- Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning [14.3]
大規模言語モデル(LLM)は、好みに基づく微調整を通じて顕著な進歩を見せている。 本稿では、1つのLCMを精細化と判定の両方に活用し、データセットの品質を向上させる自動反復手法であるRefine-n-Judgeを紹介する。 本研究では,5つのコーパスにまたがる公開データセットにまたがるRefine-n-Judgeの有効性を示す。
論文 参考訳(メタデータ) (Sun, 03 Aug 2025 01:56:03 GMT)
- 「Bringing these capabilities together, we propose Refine-n-Judge, a fully automated dataset curation pipeline, summarized in Figure 2. In this framework, an LLM model serves as both the refiner- generating improved outputs- and the judge-comparing the refined output against the original and selecting the preferred version.」という高品質化フレームワークの提案。
- judge 部分なしでは十分な効果がなかったという結果が興味深い。改善とは異なるタスクとしてjudge をLLMに解かせるというのが重要なんだろうか。
- Self-Questioning Language Models [51.8]
本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。 提案者と解答者はともに強化学習を通じて訓練される。 3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
論文 参考訳(メタデータ) (Tue, 05 Aug 2025 17:51:33 GMT)
- 「Our method leverages the intrinsic capabilities of large language models by casting them in dual roles of proposer and solver within an asymmetric self-play setup. By rewarding the generation of problems that are neither too easy nor too difficult, and by reinforcing answers via internal agreement or external verification, we demonstrate that models can meaningfully improve their reasoning skills through interaction with self-generated content alone.」というフレームワークの提案。R-Zero: Self-Evolving Reasoning LLM from Zero Data – arXiv最新論文の紹介にも近いなーと思う。
- プロジェクトサイトはSelf-Questioning Language Models