R-Zero: Self-Evolving Reasoning LLM from Zero Data

  • R-Zero: Self-Evolving Reasoning LLM from Zero Data [56.7]
    自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。 このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。 R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
    論文  参考訳(メタデータ)   (Thu, 07 Aug 2025 03:38:16 GMT)
  • 「we propose R-Zero, a framework for training reasoning LLMs that can self-evolve from zero external data. In R-Zero, a single base model is initialized with two roles – a Challenger and a Solver that are independently optimized but co-evolve throughout the RL process.」、「Challenger is rewarded for proposing tasks near the edge of the Solver’s capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger.」というGANっぽいフレームワーク。
  • リポジトリはChengsong-Huang/R-Zero: codes for R-Zero: Self-Evolving Reasoning LLM from Zero Data (https://www.arxiv.org/pdf/2508.05004)

Teaching Language Models To Gather Information Proactively 

  • Teaching Language Models To Gather Information Proactively [53.9]
    大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。 本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。 キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。 このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
    論文  参考訳(メタデータ)   (Mon, 28 Jul 2025 23:50:09 GMT)
  • 「proactive information gathering」を行うよう、Synthetic Conversation EngineとReinforcement Fine-Tuningによってモデルを強化するフレームワークを提案、「Qwen 2.5-7B model significantly outperforms 03-mini by 18% on automatic evaluation metrics. More importantly, human evaluation reveals that clarification questions and final outlines generated by our model are favored by human annotators by 42% and 28% respectively.」とのこと。

MultiGen: Using Multimodal Generation in Simulation to Learn Multimodal Policies in Real 

  • MultiGen: Using Multimodal Generation in Simulation to Learn Multimodal Policies in Real [128.8]
    MultiGenは、大規模な生成モデルを従来の物理シミュレータに統合するフレームワークである。 容器や液体を注ぐ現実世界への効果的なゼロショット転送を実証する。
    論文  参考訳(メタデータ)   (Thu, 03 Jul 2025 17:59:58 GMT)
  • 「In this work, we introduced MULTIGEN, a novel framework for integrating generative multimodal simulation into robot learning. By augmenting physics-based simulators with large-scale generative models, we demonstrated that sim-to-real policy learning can leverage rich sensory feedback beyond vision and proprioception.」というフレームワークの提案
  • 音声合成データを併用するのが興味深いところ。

Distilling On-device Language Models for Robot Planning with Minimal Human Intervention 

  • Distilling On-device Language Models for Robot Planning with Minimal Human Intervention [117.9]
    PRISMは、SLM(Small Language Model)対応ロボットプランナーを蒸留するためのフレームワークである。 PRISMを3つのLCM対応プランナーに適用し、マッピング、探索、操作、家事支援を行う。 GPT-4o の 10-20% から 93% 以上まで, PRISM は Llama-3.2-3B の性能を向上することを示した。
    論文  参考訳(メタデータ)   (Fri, 20 Jun 2025 21:44:27 GMT)
  • robot planningを対象とした「Given a source LLM-enabled planner, PRISM synthesizes tasks and environments, elicits plans from the LLM-enabled planner in these synthesized environments, and then uses the resulting data to train an SLM-enabled planner that serves as a drop-in replacement for the source model.」という蒸留フレームワークの提案。直観的にも有効そうだが実際有望な結果。
  • プロジェクトサイトはPRISM

What Matters in LLM-generated Data: Diversity and Its Effect on Model Fine-Tuning [

  • What Matters in LLM-generated Data: Diversity and Its Effect on Model Fine-Tuning [22.4]
    LLM生成データの多様性レベルが下流モデルの性能にどのように影響するかを示す。 また、LLM生成データの異なる割合を混合したデータに基づいて訓練されたモデルの性能についても検討する。
    論文  参考訳(メタデータ)   (Tue, 24 Jun 2025 02:44:58 GMT)
  • 合成データが与える影響に関する報告。特に多様性の度合いに注目している。
  • 「Our experimental results show that, with minimal distribution shift, moderately diverse LLM-generated data can enhance model performance in scenarios with insufficient labeled data, whereas highly diverse generated data has a negative impact.」とのこと。

Self-Adapting Language Models 

  • Self-Adapting Language Models [44.5]
    大規模言語モデル(LLM)は強力だが静的であり、新しいタスクや知識、例に対応して重みを適応するメカニズムが欠如している。 我々は,自己適応型LSM(Self-Adapting LLMs, SEAL)を導入する。 知識の定式化と数ショットの一般化の実験により、SEALは自己指向適応が可能な言語モデルに向けた有望なステップであることが示された。
    論文  参考訳(メタデータ)   (Thu, 12 Jun 2025 17:48:13 GMT)
  • 「We propose Self-Adapting LLMs (SEAL), a framework that enables language models to improve themselves by generating their own synthetic data and optimization parameters (“self-edits”) in re- sponse to new data. The model is trained to produce these self-edits directly through token generation with the data provided in the model’s context. Self-edit generation is learned via reinforcement learning (RL) where the model is rewarded for generating self-edits (SE) that, when applied, improve the model’s performance at the target task.」という自己適合、自己進化、自己改善のアプローチ。SQuADやARC-AGI benchmark(のサブセット)を用いて効果を検証している。
  • 合成データを介しての自己改善はやはり有効そうという印象。(今でも一定実用的であると思うが)AGIとかいう世界観を考えると時間的制約が解消できるかがポイントだろうか。(AIにも睡眠が必要と言いつつこの手の処理を行うような少し未来が妄想される)
  • プロジェクトサイトはSelf-Adapting Language Models
  • Self-Adapting Improvement Loops for Robotic Learning [30.8]
    専門家によるデモンストレーションで訓練されたビデオ生成モデルは、ロボットタスクを解くためのパフォーマンスの高いテキスト条件付きビジュアルプランナーとして利用されてきた。 本研究では,自己生成トラジェクトリ上で,ドメイン内ビデオモデルを反復的に更新する自己改善ループ(SAIL)を提案する。 従来のドメイン内ビデオモデルトレーニングでは,新規タスクの繰り返しに対して,パフォーマンスが継続的に向上することが確認できた。
    論文  参考訳(メタデータ)   (Sat, 07 Jun 2025 04:34:37 GMT)
  • 「we highlight that adaptation with large-scale pretrained text-conditioned video models is critical for facilitating self-improvement, by contributing text-conditioned generalization capabilities and motion priors.」とこちらは動画生成モデルを活用するアプローチ。
  • プロジェクトサイトはSAIL

Self-Challenging Language Model Agents

  • Self-Challenging Language Model Agents [98.6]
    本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。 このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。
    論文  参考訳(メタデータ)   (Mon, 02 Jun 2025 14:23:33 GMT)
  • 「we present the Self-Challenging Agent (SCA) method for self-improvement of general multi-turn tool-use LLM agents. SCA can create its own tasks to challenge itself and learn from them. To do this, it utilizes the Code-as-Task (CaT) formulation which ensures high quality synthetic tasks. Through RL on these self-generated synthetic tasks, SCA can be used to train a Llama-3.1-8B model to achieve an average relative success rate improvement of 95.8% on existing test tasks across four different multi-turn tool-use environments.」とのこと。。。AGIに近づいている感のある未来を感じる報告。(「While SCA serves as a preliminary step, there remains many research questions for building an effective self-improvement flywheel for general LLM agents.」とあるとおり、実態上はまだいろいろ壁はあるのだろうが)
  • コード生成を効果的に使っているのも興味深いが、形式言語で表されるようなタスクは解ける段階というのは意外と早く来るのだろうか。。。

OpenThoughts: Data Recipes for Reasoning Models

  • OpenThoughts: Data Recipes for Reasoning Models [215.2]
    OpenThoughtsプロジェクトは、推論モデルをトレーニングするためのオープンソースのデータセットを作成することだ。 OpenThoughts2-1Mデータセットは、公開推論データに基づいてトレーニングされた最初のモデルであるOpenThinker2-32Bに導かれた。 OpenThinker3-7Bモデル。
    論文  参考訳(メタデータ)   (Wed, 04 Jun 2025 17:25:39 GMT)
  • LRM構築のためのオープンデータセット。データ拡張の方向性としても参考になる。
  • プロジェクトサイトはOpen Thoughts

SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis 

  • SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [90.0]
    Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。 既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。 本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
    論文  参考訳(メタデータ)   (Thu, 22 May 2025 16:05:02 GMT)
  • 「Our approach synthesizes high-quality training data by simulating realistic user interactions in live web search environments, coupled with a multi-criteria curation strategy that optimizes the diversity and quality of input and output side.」、小規模なデータでも改善幅が大きいとのこと。
  • プロジェクトサイトはGitHub – RUCAIBox/SimpleDeepSearcher: SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis

DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories

  • DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories [120.3]
    DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。 私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
    論文  参考訳(メタデータ)   (Mon, 19 May 2025 04:55:39 GMT)
  • 「This pipeline is designed to be general-purpose across different robots, environments, and tasks. (1) We fine-tune video world models on a target robot to capture the dynamics and kinematics of the specific embodiment; (2) we prompt the model with pairs of initial frames and language instructions to generate large volumes of robot videos, capturing both familiar behaviors from fine-tuning and novel ones in unseen settings; (3) we then extract pseudo-actions using either a latent action model [13] or an inverse dynamics model (IDM)[14]; (4) finally, we use the resulting video-action sequence pairs, dubbed neural trajectories, for training downstream visuomotor policies.」と動画生成モデルを活用したデータ合成手法の提案。イメージトレーニングのようで面白い。
  • プロジェクトサイトはDreamGen