Co-Evolving Latent Action World Models, SPICE : Self-Play In Corpus Environments Improves Reasoning, Critique-RL, Parrot

先週、2つの異なるものを共に進化させ性能向上を図る論文が複数出ていた。このようなフレームワークとしてはGANが有名ではあるが、LLM basedな時代でもしばしば見るアプローチで非常に興味深い。

  • Co-Evolving Latent Action World Models [57.5]
    学習済みのビデオモデルを潜在アクションを介して制御可能な世界モデルに適応させることは、ジェネラリストの世界モデルを作成するための有望なステップである。 本稿では,この相乗的パラダイムを初めて実現したCoLA-Worldを提案する。 世界モデルは知識のある家庭教師として機能し、高品質のLAMを形成するための勾配を提供する。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 12:28:40 GMT)
  • 「We propose CoLA-World, the first framework that successfully enables joint training of a latent action model with a pre-trained video-generation-based world model.」とlatent action model (LAM) と world modelを共に生成
  • SPICE: Self-Play In Corpus Environments Improves Reasoning [58.8]
    SPICEは、単一のモデルが2つの役割で機能する強化学習フレームワークである。 チャレンジャーは、様々な推論タスクを生成するために、大きなコーパスから文書をマイニングする。 本分析は,SPICEにおける文書の基盤化が,ますます困難な目標を連続的に生み出す上で,いかに重要な要素であるかを明らかにする。
    論文  参考訳(メタデータ)   (Tue, 28 Oct 2025 17:46:16 GMT)
  • 「SPICE is a self-play framework where a single LLM, πθ, acts in two roles: a Challenger (role = C), which poses difficult questions, and a Reasoner (role = R), which tries to correctly answer such questions. The Challenger uses a raw document (which does not contain existing questions or labels) from a corpus to generate a (q, a∗) pair.」とChallengerとReasonerを使う強化学習フレームワーク
  • Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning [89.6]
    より強力な監督を伴わないクオリティク言語モデルを開発するためのオンラインRLアプローチであるCrytique-RLを提案する。 提案手法は,アクターが応答を生成し,批評家がフィードバックを提供し,アクターがそれに応じて応答を洗練する,という2段階のパラダイムに基づいている。 さまざまなタスクやモデルに対する実験では、Cristique-RLが大幅なパフォーマンス改善を実現している。
    論文  参考訳(メタデータ)   (Tue, 28 Oct 2025 11:37:01 GMT)
  • 「In stage I, it reinforces the discriminability of the critic with direct rule-based reward signals; in stage II, it introduces indirect rewards based on actor refinement to improve the critic’s helpfulness, while maintaining its discriminability via appropriate regularization. Extensive experiments across various tasks and models show that Critique-RL delivers substantial performance improvements.」と2ステージ構成の批評家モデルの強化(Actor側は更新されないので他とは異なるが)
  • リポジトリはGitHub – WooooDyy/Critique-RL
  • Parrot: A Training Pipeline Enhances Both Program CoT and Natural Language CoT for Reasoning [69.0]
    自然言語のチェーン・オブ・シント(N-CoT)とプログラム・チェーン・オブ・シント(P-CoT)は、数学的な推論問題を解決するために、大規模言語モデル(LLM)の2つの主要なパラダイムとして登場した。 数学的問題に対する新しいトレーニングパイプラインであるParrotを提案する。
    論文  参考訳(メタデータ)   (Wed, 29 Oct 2025 09:23:17 GMT)
  • Natural language chain-of-thought (N-CoT) とProgram chain-of-thought (P-CoT)の両強化、「The pipeline comprises three target-designed subtasks: Information Retrieval trains the model to concentrate on key information within problem. P-CoT Reasoning utilizes the information to generate variable well- defined code solutions. Paradigm Conversion enhances N-CoT with concise P-CoT and its intermediate outputs.」の3サブタスクを前提としている。

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

  • Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models [30.3]
    データ汚染は大規模言語モデル(LLM)の信頼性評価に重大な脅威をもたらす この問題は、ベンチマークサンプルが必然的にトレーニングセットに現れ、報告されたパフォーマンスの有効性を損なうことになる。 本稿では,RLポストトレーニングのための特殊汚染検出手法として,自己批判を提案する。
    論文  参考訳(メタデータ)   (Fri, 10 Oct 2025 10:58:50 GMT)
  • コンタミネーション検知のためのSelf-Critique「. The method compares token-level entropy sequences between the initial response and the self-critique response. High similarity in entropy space indicates contamination (policy collapse), while low similarity indicates clean samples.」が興味深い。
  • リポジトリはGitHub – yongding-tao/RL-Data-Contamination

Self-Improvement in Multimodal Large Language Models: A Survey 

  • Self-Improvement in Multimodal Large Language Models: A Survey [34.4]
    LLM(Large Language Models)の自己改善は、コストを大幅に増大させることなく、効率的にモデル機能を強化している。 この調査は、マルチモーダル LLM における自己改善に関する総合的な概要を提供する最初のものである。
    論文  参考訳(メタデータ)   (Fri, 03 Oct 2025 01:48:26 GMT)
  • Self improvementに関するサーベイ。「We provide a structured overview of the current literature and discuss methods from three perspectives: 1) data col- lection, 2) data organization, and 3) model optimization, to facilitate the further development of self-improvement in MLLMs. We also in- clude commonly used evaluations and down- stream applications.」

Self-Improving LLM Agents at Test-Time

  • Self-Improving LLM Agents at Test-Time [49.9]
    言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。 実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。 テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 06:37:35 GMT)
  • 「(i) identify uncertain samples via a novel uncertainty estimator, (ii) generate new training instances similar to these samples, and (iii) update the model online.」というステップからなるself improvement。「Test-Time Self-Improvement (TT-SI), where the model trains on self-generated samples using parameter efficient fine-tuning techniques (PEFT) (Hu et al , 2022), and Test-Time Distillation (TT-D) where adaptation is guided by supervision from samples synthesized by a more capable teacher model.」の2種類を検討している(後者はself-improvingなのか若干疑問ではあるが。。)

AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning

Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails 

  • Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.1]
    本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。 ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。 実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
    論文  参考訳(メタデータ)   (Mon, 06 Oct 2025 14:48:39 GMT)
  • 「Our research reveals a critical vulnerability in self-evolving LLM agents, which we term the “Alignment Tipping Process” (ATP), a phenomenon where an agent’s policy suddenly shifts from human- aligned objectives to self-serving, locally optimal behaviors. Driven either by an individual agent’s self-interested exploration or by the imitative diffusion of strategies within a group, our experiments consistently demonstrate that alignment is not a static property, but rather a fragile state actively eroded by experience.」と自己進化型エージェントでのリスクを指摘。最近出た250例程度のPoisoning Attackが有効という報告(下記)も関連し、意外とこの手の攻撃が容易そうに思える。
  • リポジトリはGitHub – aiming-lab/ATP: Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails
  • Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples [81.7]
    この研究は、データセットのサイズに関わらず、毒殺攻撃がほぼ一定数のドキュメントを必要とすることを初めて実証した。 250の有毒なドキュメントも同様に、すべてのモデルとデータセットサイズにわたってモデルを妥協している。 以上の結果から,データ中毒によるバックドア注入は,従来考えられていたよりも大型モデルの方が容易である可能性が示唆された。
    論文  参考訳(メタデータ)   (Wed, 08 Oct 2025 16:25:05 GMT)
  • データポイゾニングが意外と容易にできるとの報告。

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models 

  • Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models [18.8]
    ACE(Agentic Context Engineering)は、コンテキストを進化するプレイブックとして扱うフレームワークである。 エージェントとドメイン固有のベンチマークを通じて、ACEは一貫して強力なベースラインを上回っている。 ACEは、ラベル付けされた監視なしに効果的に適応することができ、代わりに自然な実行フィードバックを活用することができる。
    論文  参考訳(メタデータ)   (Mon, 06 Oct 2025 09:30:18 GMT)
  • 「We present ACE (Agentic Context Engineering), a framework for scalable and efficient context adaptation in both offline (e g , system prompt optimization) and online (e g , test-time memory adaptation) scenarios. Instead of condensing knowledge into terse summaries or static instructions, ACE treats contexts as evolving playbooks that continuously accumulate, refine, and organize strategies over time.」とこちらもコンテキストを記憶のように使い自己改善するアプローチに見える。

CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

  • CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards [80.8]
    自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。 エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 17:50:26 GMT)
  • 外部の報酬に頼らない自己進化のアプローチ、「As a new paradigm for self-evolution, CoMAS offers several distinct advantages: (1) It generates reward signals intrinsically from agent interactions, eliminating the need for verifiers or reward models. (2) The learning paradigm is generally effective for various tasks, including open-ended problems where solutions cannot be easily verified. (3) Agents are trained in a decentralized manner, allowing for co-evolution of heterogeneous systems without the bottleneck of a shared model. (4) It fosters skills that transfer to out-of-domain tasks and diverse multi-agent collaboration settings.」とのこと。
  • リポジトリはGitHub – xxyQwQ/CoMAS: Implementation for the paper “CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards”.

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents 

  • Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents [58.7]
    エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。 我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLLM上に構築されたエージェントにも影響を及ぼすことが判明した。 我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
    論文  参考訳(メタデータ)   (Tue, 30 Sep 2025 14:55:55 GMT)
  • 「(1) In model evolution, we assess whether self-evolving agents compromise their safety alignment after self-updating their model parameters. (2) In memory evolution, we test whether memory-augmented agents learn undesirable preferences or degrade their risk awareness while accumulating experience into memory. (3) In tool evolution, we evaluate whether agents will spontaneously induce risks in the tool creation-reuse loop, and test agents’ ability to reject appealing but potentially malicious tools retrieved from the Internet. (4) In workflow evolution, we analyze whether automatically adjusted workflows can lead to safety decay.」と4つの観点からMisevolveを評価。現実的な問題であると指摘。
  • リポジトリはGitHub – ShaoShuai0605/Misevolution: Official Repo of Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Self-Improving Embodied Foundation Models 

  • Self-Improving Embodied Foundation Models [21.8]
    ロボット工学における2段階のポストトレーニング手法を提案する。 第1段階であるSupervised Fine-Tuning (SFT) は、a) 行動クローニングとb) ステップ・トゥ・ゴーの予測目的の両方を用いたファインチューン事前訓練基礎モデルである。 第2段階では、ステップ・トゥ・ゴー予測により、良好な形状の報酬関数と堅牢な成功検出器の抽出が可能となる。
    論文  参考訳(メタデータ)   (Thu, 18 Sep 2025 17:00:08 GMT)
  • 「1) Supervised Fine-Tuning (SFT) wherein we fine-tune EFMs using behavioral cloning as well as “steps-to-go” prediction objectives, and 2) Self-Improvement (Online RL) wherein EFMs autonomously practice downstream tasks and rapidly improve via optimizing self-predicted rewards.」というアプローチの提案(EFM= Embodied Foundation Models)。「Finally, we demonstrated that this novel combination uniquely unlocks a capability not possible by current methods: autonomously aquiring new skills that generalize far beyond the tasks covered in the imitation learning datasets. These findings highlight the transformative potential of combining pretrained foundation models with online Self- Improvement to enable autonomous skill acquisition in robotics.」と効果があったとのこと。
  • プロジェクトサイトはAnonymous Supplementary Videos for “On the Magic of Online Self-Improvement for Embodied Multimodal Foundation Models”