Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents 

  • Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents [58.7]
    エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。 我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLLM上に構築されたエージェントにも影響を及ぼすことが判明した。 我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 14:55:55 GMT)
  • 「(1) In model evolution, we assess whether self-evolving agents compromise their safety alignment after self-updating their model parameters. (2) In memory evolution, we test whether memory-augmented agents learn undesirable preferences or degrade their risk awareness while accumulating experience into memory. (3) In tool evolution, we evaluate whether agents will spontaneously induce risks in the tool creation-reuse loop, and test agents’ ability to reject appealing but potentially malicious tools retrieved from the Internet. (4) In workflow evolution, we analyze whether automatically adjusted workflows can lead to safety decay.」と4つの観点からMisevolveを評価。現実的な問題であると指摘。
  • リポジトリはGitHub – ShaoShuai0605/Misevolution: Official Repo of Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です