Scaling Agent Learning via Experience Synthesis

  • Scaling Agent Learning via Experience Synthesis [100.4]
    強化学習(RL)は、対話を通じて自己改善を行うことで、大規模言語モデル(LLM)エージェントを強化することができる。 私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。 高価な実環境のロールアウトに頼るのではなく、DreamGymは環境のダイナミクスを推論ベースのエクスペリエンスモデルに蒸留する。
    論文  参考訳(メタデータ)   (Wed, 05 Nov 2025 18:58:48 GMT)
  • 「To synthesize diverse agent experiences for RL training, DreamGym is built around three key components: (1) a scalable reasoning experience model that encodes the meta-dynamics of the target domain to efficiently generate informative trajectories; (2) an experience replay buffer that integrates offline environment knowledge with online synthetic transitions, co-evolving with the agent to stay aligned with its updated policy; (3) a curriculum task generator that produces progressively challenging variations of high-value tasks selected via a reward-entropy heuristic.」と強力な合成フレームワーク。

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

  • Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks [33.7]
    下流認識タスクを強化するための新しい合成データ生成フレームワークであるDream4Driveを紹介する。 Dream4Driveは入力ビデオを複数の3D対応誘導マップに分解し、これらの誘導マップに3Dアセットをレンダリングする。 駆動世界モデルは、下流の知覚モデルをトレーニングするために使用できる編集されたマルチビュービデオを作成するために微調整される。
    論文  参考訳(メタデータ)   (Fri, 24 Oct 2025 10:10:43 GMT)
  • 「We propose Dream4Drive, a 3D-aware synthetic data generation framework that edits the video with dense guidance maps, producing synthetic data with diverse appearances and geometric consistency.」とデータ合成フレームワークの提案。
  • プロジェクトサイトはRethinking Driving World Model as Synthetic Data Generator for Perception Tasks

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

  • LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training [55.7]
    構造化されたUI状態と遷移を生成するスケーラブルなパラダイムを導入し、大規模にトレーニングトラジェクトリを合成する。 このパラダイムは、多様なUI状態のためのデジタルワールドシミュレータ、コヒーレント探索のためのガイド付きロールアウトプロセス、軌道ラッパーを統合している。 WebArenaとAndroidWorldの実験では、UI-Simulatorは実際のUIでトレーニングされたオープンソースエージェントと競合するか、あるいは超越している。
    論文  参考訳(メタデータ)   (Thu, 16 Oct 2025 17:59:38 GMT)
  • 「We introduced UI-Simulator, a scalable trajectory synthesis paradigm that uses LLM-based digital world simulators to synthesize diverse UI trajectories at scale through multi-step simulation, guided rollouts, and final trajectory wrapping.」とGUIエージェント構築に活用できるデータ合成フレームワークの提案。
  • リポジトリはGitHub – WadeYin9712/UI-Simulator: Code for 🌍 UI-Simulator: LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

InfoAgent: Advancing Autonomous Information-Seeking Agents

  • InfoAgent: Advancing Autonomous Information-Seeking Agents [143.2]
    本稿では,革新的なデータ合成パイプラインとWeb検索ツールを駆使したディープリサーチエージェントInfoAgentを紹介する。 我々の方法では、InfoAgentはBrowseCompで15.3%、BrowseComp-ZHで29.2%、Xbench-DSで40.4%の精度を達成した。
    論文  参考訳(メタデータ)   (Mon, 29 Sep 2025 17:59:57 GMT)
  • Deep Researchエージェントの構築。Qwen3 14Bベースで合成データを活用、「In the first stage, we perform supervised finetuning (SFT) as a cold start, in order to instill long-horizon search behavior into the model.」、「In the second stage, we apply RL to refine its ability of reasoning-driven tool use.」の2段階でのpost training。
  • 合成データ、post trainingの有効性を示す結果で、ベースモデルサイズもお手頃感がある。このようなSLMの開発が流行っていく可能性を感じる結果。

SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents

  • SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.3]
    本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。 我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 02:07:09 GMT)
  • 「we propose a compact synthetic-data reinforcement learning recipe that adapts reasoningoptimized LLMs into native Autonomous Single-Agent systems for Deep Research. Applied to open-source backbones, our best variant attains 28.7% on Humanity’s Last Exam.」と合成データを活用したDeep Researchエージェント構築フレームワークの提案。

Understanding the Influence of Synthetic Data for Text Embedders  / So let’s replace this phrase with insult… Lessons learned from generation of toxic texts with LLMs 

  • Understanding the Influence of Synthetic Data for Text Embedders [52.0]
    まず,Wangらによって提案された合成データの再生と公開を行った。 合成データがモデル一般化をどのように改善するかを批判的に検討する。 本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
    論文  参考訳(メタデータ)   (Sun, 07 Sep 2025 19:28:52 GMT)
  • 合成データの効果についてEmbeddingモデルの観点で検証した論文。「we find that training on synthetic examples designed for a particular task can degrade the performance of other tasks, challenging the notion that training on more diverse synthetic data is strictly better. Moreover, we observe that synthetic data leads to sparse improvement across tasks, showing no statistically significant improvement on a majority of MTEB tasks.」とのこと。
  • リポジトリはGitHub – jakespringer/open-synthetic-embeddings
  • <think> So let’s replace this phrase with insult… </think> Lessons learned from generation of toxic texts with LLMs [60.2]
    本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。 実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。 根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
    論文  参考訳(メタデータ)   (Wed, 10 Sep 2025 07:48:24 GMT)
  • こちらも合成データに関する記載があり「Models trained on fully synthetic data significantly underperform those trained on humanannotated data.」としている。モデル崩壊の報告でも合成データのみでは良くない結果を招いていて、これはそうなのだろうと思う。

Language Self-Play For Data-Free Training 

  • Language Self-Play For Data-Free Training [37.2]
    大規模言語モデル(LLM)は,近年,大規模,高品質なトレーニングデータ,強化学習によって急速に進歩している。 しかし、この進歩は根本的なボトルネックに直面している。 我々は、追加データなしでモデルの改善を可能にすることで、この依存を取り除く強化学習手法を提案する。
    論文  参考訳(メタデータ)   (Tue, 09 Sep 2025 05:51:34 GMT)
  • 「Language Self-Play agent operates under two modes: Challenger and Solver. Challenger generates instructions that Solver follows. While Solver learns to improve its responses to the prompts, Challenger learns to make them more difficult. Both modes are instantiated by one model and thus enable perpetual training on increasingly higher-quality self-generated data.」というLanguage Self-Play (LSP)フレームワークの提案。
  • R-Zero: Self-Evolving Reasoning LLM from Zero Data – arXiv最新論文の紹介に似ている?

Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

  • Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4]
    スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。 LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。 LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
    論文  参考訳(メタデータ)   (Wed, 03 Sep 2025 06:42:40 GMT)
  • 「Our contributions are fourfold: (1) LOONGBENCH, a seed dataset of 8,729 examples across 12 reasoning- intensive domains with executable code and verified answers; (2) LOONGENV, a flexible environment enabling diverse synthetic data generation strategies; (3) comprehensive benchmarking of open-source and proprietary models to assess domain generalization; and (4) in-depth analysis of generated data quality in terms of correctness, diversity, and complexity. Together, these components form a cohesive framework for studying alignment at scale.」と、合成データに関するフレームワークの提案。合成データ活用は高性能モデルを構築するにあたり基本的なアプローチとなっており、この手のフレームワークはありがたい。
  • リポジトリはGitHub – camel-ai/loong: 🐉 Loong: Synthesize Long CoTs at Scale through Verifiers.

Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data

  • Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data [100.5]
    Streferはビデオ大モデルに参照と推論機能を持たせるために設計された合成データ生成フレームワークである。 Streferは、時間的に密度が高くきめ細かなビデオメタデータを擬似アノテーションするデータエンジンを使用して、多様な命令生成データを生成する。 我々のアプローチは、ビデオLLMが空間的および時間的参照を解釈する能力を高め、現実のAIコンパニオンに不可欠な、より汎用的で時空間対応の推論を育む。
    論文  参考訳(メタデータ)   (Wed, 03 Sep 2025 17:33:20 GMT)
  • 「Our approach begins with a modular framework that orchestrates multiple agents—including pretrained Large Language Models (LLMs), Video LLMs, and Pixel-Level Multimodal Vision Foundation Models (e g , RexSeek [20], GroundingDINO [32] and SAM2 [44])—to pseudo-annotate video metadata with temporally dense and object-centric space-time information. This metadata captures detailed spatial and temporal structures, such as subjects, objects, their locations as masklets (segmentation masks tracked over time), and action timelines. Building on this structured metadata, we leverage in-context learning and well-defined task schemas to guide LLMs in generating high-utility instruction data for tuning Video LLMs.」と凝った構成による動画に対する合成データフレームワークの提案。
  • プロジェクトサイトはStrefer: Data Engine for Video LLMs

BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

  • BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining [13.2]
    プレトレーニングのための高品質な合成データを生成する合成データ生成フレームワークであるBeyondWebを紹介した。 BeyondWebは、従来のWebスケールデータセットの機能を大幅に拡張した。 オープンなWebデータよりも最大7.7倍、Nemotron-Synthより2.7倍高速なトレーニングを提供する。
    論文  参考訳(メタデータ)   (Thu, 14 Aug 2025 17:55:47 GMT)
  • 様々な観点からの評価を行っているが「The data wall is not unsurpassable; it can be broken through strategic synthetic data generation.」という主張に驚き