Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails 

  • Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.1]
    本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。 ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。 実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
    論文  参考訳(メタデータ)   (Mon, 06 Oct 2025 14:48:39 GMT)
  • 「Our research reveals a critical vulnerability in self-evolving LLM agents, which we term the “Alignment Tipping Process” (ATP), a phenomenon where an agent’s policy suddenly shifts from human- aligned objectives to self-serving, locally optimal behaviors. Driven either by an individual agent’s self-interested exploration or by the imitative diffusion of strategies within a group, our experiments consistently demonstrate that alignment is not a static property, but rather a fragile state actively eroded by experience.」と自己進化型エージェントでのリスクを指摘。最近出た250例程度のPoisoning Attackが有効という報告(下記)も関連し、意外とこの手の攻撃が容易そうに思える。
  • リポジトリはGitHub – aiming-lab/ATP: Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
  • Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples [81.7]
    この研究は、データセットのサイズに関わらず、毒殺攻撃がほぼ一定数のドキュメントを必要とすることを初めて実証した。 250の有毒なドキュメントも同様に、すべてのモデルとデータセットサイズにわたってモデルを妥協している。 以上の結果から,データ中毒によるバックドア注入は,従来考えられていたよりも大型モデルの方が容易である可能性が示唆された。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 16:25:05 GMT)
  • データポイゾニングが意外と容易にできるとの報告。

In-Context Clustering with Large Language Models

  • In-Context Clustering with Large Language Models [50.3]
    ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。 事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。 我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 17:07:55 GMT)
  • LLMの内部知識を用いたクラスタリングモデルの提案。fine tuningによって性能を大きく向上させている。軸設定が強力にできるのが素晴らしい。
  • プロジェクトサイトはIn-Context Clustering

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models 

  • Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models [18.8]
    ACE(Agentic Context Engineering)は、コンテキストを進化するプレイブックとして扱うフレームワークである。 エージェントとドメイン固有のベンチマークを通じて、ACEは一貫して強力なベースラインを上回っている。 ACEは、ラベル付けされた監視なしに効果的に適応することができ、代わりに自然な実行フィードバックを活用することができる。
    論文  参考訳(メタデータ)   (Mon, 06 Oct 2025 09:30:18 GMT)
  • 「We present ACE (Agentic Context Engineering), a framework for scalable and efficient context adaptation in both offline (e g , system prompt optimization) and online (e g , test-time memory adaptation) scenarios. Instead of condensing knowledge into terse summaries or static instructions, ACE treats contexts as evolving playbooks that continuously accumulate, refine, and organize strategies over time.」とこちらもコンテキストを記憶のように使い自己改善するアプローチに見える。

When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs

  • When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs [64.3]
    最近のLong-Context Language Modelsは、1つのプロンプトで数十万のトークンを処理することができる。 我々は、従来の問題解決トレースから導かれた再利用可能な思考キャッシュとして、推論をリキャストする。 本稿では,自然言語フィードバックによって学習データから得られるテンプレートを反復的に洗練する更新戦略を提案する。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 19:52:35 GMT)
  • 「Thought Template Augmented LCLMs (TOTAL), that equips long- context models with reusable reasoning patterns and iteratively refines them through natural language feedback.」というアプローチの提案。ロングコンテキストをうまく使う記憶というイメージだろうか。
  • リポジトリはhttps://github.com/starsuzi/ToTALとのことだが現時点では404