コンテンツへスキップ
- SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.3]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。 我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (Mon, 08 Sep 2025 02:07:09 GMT)
- 「we propose a compact synthetic-data reinforcement learning recipe that adapts reasoningoptimized LLMs into native Autonomous Single-Agent systems for Deep Research. Applied to open-source backbones, our best variant attains 28.7% on Humanity’s Last Exam.」と合成データを活用したDeep Researchエージェント構築フレームワークの提案。
- Understanding the Influence of Synthetic Data for Text Embedders [52.0]
まず,Wangらによって提案された合成データの再生と公開を行った。 合成データがモデル一般化をどのように改善するかを批判的に検討する。 本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (Sun, 07 Sep 2025 19:28:52 GMT)
- 合成データの効果についてEmbeddingモデルの観点で検証した論文。「we find that training on synthetic examples designed for a particular task can degrade the performance of other tasks, challenging the notion that training on more diverse synthetic data is strictly better. Moreover, we observe that synthetic data leads to sparse improvement across tasks, showing no statistically significant improvement on a majority of MTEB tasks.」とのこと。
- リポジトリはGitHub – jakespringer/open-synthetic-embeddings
- <think> So let’s replace this phrase with insult… </think> Lessons learned from generation of toxic texts with LLMs [60.2]
本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。 実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。 根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
論文 参考訳(メタデータ) (Wed, 10 Sep 2025 07:48:24 GMT)
- こちらも合成データに関する記載があり「Models trained on fully synthetic data significantly underperform those trained on humanannotated data.」としている。モデル崩壊の報告でも合成データのみでは良くない結果を招いていて、これはそうなのだろうと思う。
- Language Self-Play For Data-Free Training [37.2]
大規模言語モデル(LLM)は,近年,大規模,高品質なトレーニングデータ,強化学習によって急速に進歩している。 しかし、この進歩は根本的なボトルネックに直面している。 我々は、追加データなしでモデルの改善を可能にすることで、この依存を取り除く強化学習手法を提案する。
論文 参考訳(メタデータ) (Tue, 09 Sep 2025 05:51:34 GMT)
- 「Language Self-Play agent operates under two modes: Challenger and Solver. Challenger generates instructions that Solver follows. While Solver learns to improve its responses to the prompts, Challenger learns to make them more difficult. Both modes are instantiated by one model and thus enable perpetual training on increasingly higher-quality self-generated data.」というLanguage Self-Play (LSP)フレームワークの提案。
- R-Zero: Self-Evolving Reasoning LLM from Zero Data – arXiv最新論文の紹介に似ている?
- Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。 LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。 LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (Wed, 03 Sep 2025 06:42:40 GMT)
- 「Our contributions are fourfold: (1) LOONGBENCH, a seed dataset of 8,729 examples across 12 reasoning- intensive domains with executable code and verified answers; (2) LOONGENV, a flexible environment enabling diverse synthetic data generation strategies; (3) comprehensive benchmarking of open-source and proprietary models to assess domain generalization; and (4) in-depth analysis of generated data quality in terms of correctness, diversity, and complexity. Together, these components form a cohesive framework for studying alignment at scale.」と、合成データに関するフレームワークの提案。合成データ活用は高性能モデルを構築するにあたり基本的なアプローチとなっており、この手のフレームワークはありがたい。
- リポジトリはGitHub – camel-ai/loong: 🐉 Loong: Synthesize Long CoTs at Scale through Verifiers.
- Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data [100.5]
Streferはビデオ大モデルに参照と推論機能を持たせるために設計された合成データ生成フレームワークである。 Streferは、時間的に密度が高くきめ細かなビデオメタデータを擬似アノテーションするデータエンジンを使用して、多様な命令生成データを生成する。 我々のアプローチは、ビデオLLMが空間的および時間的参照を解釈する能力を高め、現実のAIコンパニオンに不可欠な、より汎用的で時空間対応の推論を育む。
論文 参考訳(メタデータ) (Wed, 03 Sep 2025 17:33:20 GMT)
- 「Our approach begins with a modular framework that orchestrates multiple agents—including pretrained Large Language Models (LLMs), Video LLMs, and Pixel-Level Multimodal Vision Foundation Models (e g , RexSeek [20], GroundingDINO [32] and SAM2 [44])—to pseudo-annotate video metadata with temporally dense and object-centric space-time information. This metadata captures detailed spatial and temporal structures, such as subjects, objects, their locations as masklets (segmentation masks tracked over time), and action timelines. Building on this structured metadata, we leverage in-context learning and well-defined task schemas to guide LLMs in generating high-utility instruction data for tuning Video LLMs.」と凝った構成による動画に対する合成データフレームワークの提案。
- プロジェクトサイトはStrefer: Data Engine for Video LLMs
- BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining [13.2]
プレトレーニングのための高品質な合成データを生成する合成データ生成フレームワークであるBeyondWebを紹介した。 BeyondWebは、従来のWebスケールデータセットの機能を大幅に拡張した。 オープンなWebデータよりも最大7.7倍、Nemotron-Synthより2.7倍高速なトレーニングを提供する。
論文 参考訳(メタデータ) (Thu, 14 Aug 2025 17:55:47 GMT)
- 様々な観点からの評価を行っているが「The data wall is not unsurpassable; it can be broken through strategic synthetic data generation.」という主張に驚き
- R-Zero: Self-Evolving Reasoning LLM from Zero Data [56.7]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。 このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。 R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文 参考訳(メタデータ) (Thu, 07 Aug 2025 03:38:16 GMT)
- 「we propose R-Zero, a framework for training reasoning LLMs that can self-evolve from zero external data. In R-Zero, a single base model is initialized with two roles – a Challenger and a Solver that are independently optimized but co-evolve throughout the RL process.」、「Challenger is rewarded for proposing tasks near the edge of the Solver’s capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger.」というGANっぽいフレームワーク。
- リポジトリはChengsong-Huang/R-Zero: codes for R-Zero: Self-Evolving Reasoning LLM from Zero Data (https://www.arxiv.org/pdf/2508.05004)
- Teaching Language Models To Gather Information Proactively [53.9]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。 本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。 キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。 このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (Mon, 28 Jul 2025 23:50:09 GMT)
- 「proactive information gathering」を行うよう、Synthetic Conversation EngineとReinforcement Fine-Tuningによってモデルを強化するフレームワークを提案、「Qwen 2.5-7B model significantly outperforms 03-mini by 18% on automatic evaluation metrics. More importantly, human evaluation reveals that clarification questions and final outlines generated by our model are favored by human annotators by 42% and 28% respectively.」とのこと。
- MultiGen: Using Multimodal Generation in Simulation to Learn Multimodal Policies in Real [128.8]
MultiGenは、大規模な生成モデルを従来の物理シミュレータに統合するフレームワークである。 容器や液体を注ぐ現実世界への効果的なゼロショット転送を実証する。
論文 参考訳(メタデータ) (Thu, 03 Jul 2025 17:59:58 GMT)
- 「In this work, we introduced MULTIGEN, a novel framework for integrating generative multimodal simulation into robot learning. By augmenting physics-based simulators with large-scale generative models, we demonstrated that sim-to-real policy learning can leverage rich sensory feedback beyond vision and proprioception.」というフレームワークの提案
- 音声合成データを併用するのが興味深いところ。
- Distilling On-device Language Models for Robot Planning with Minimal Human Intervention [117.9]
PRISMは、SLM(Small Language Model)対応ロボットプランナーを蒸留するためのフレームワークである。 PRISMを3つのLCM対応プランナーに適用し、マッピング、探索、操作、家事支援を行う。 GPT-4o の 10-20% から 93% 以上まで, PRISM は Llama-3.2-3B の性能を向上することを示した。
論文 参考訳(メタデータ) (Fri, 20 Jun 2025 21:44:27 GMT)
- robot planningを対象とした「Given a source LLM-enabled planner, PRISM synthesizes tasks and environments, elicits plans from the LLM-enabled planner in these synthesized environments, and then uses the resulting data to train an SLM-enabled planner that serves as a drop-in replacement for the source model.」という蒸留フレームワークの提案。直観的にも有効そうだが実際有望な結果。
- プロジェクトサイトはPRISM