The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data 

  • The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data [25.9]
    大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。 本稿では,2次元から合成データを評価するためのフレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 25 Jan 2026 06:40:25 GMT)
  • 合成データに関するサーベイであり、「 the LLM Data Auditor framework, as shown in Figure 1 and 2. This framework organizes various data types through a unified structure encompassing 5 core components: LLM-based data generation methods, quality metrics, trustworthy metrics, evaluation gaps, and data usage」というフレームワークを通しての整理。
  • リポジトリはAnonymized Repository – Anonymous GitHub

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs 

  • Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.6]
    データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。 本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。 データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
    論文  参考訳(メタデータ)   (Thu, 22 Jan 2026 12:02:45 GMT)
  • LLMを用いたデータ整理に関するサーベイ。
  • リポジトリはGitHub – weAIDB/awesome-data-llm: Official Repository of “LLM × DATA” Survey Paper

From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence 

  • From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence [91.5]
    エピプレキシティ(英: Epiplexity)とは、計算的に境界付けられた観測者がデータから学べるものを捉える情報の形式化である。 計算によってどのように情報を生成するか、データの順序にどのように依存するか、そしてモデリングがデータ生成プロセス自体よりも複雑なプログラムを生成する可能性を示す。
    論文  参考訳(メタデータ)   (Tue, 06 Jan 2026 18:04:03 GMT)
  • 分野・キーワードとしてはシャノンの情報量やコルモゴロフ複雑性のようなイメージで、Epiplexity(we define a new information measure, epiplexity (epistemic complexity), which formally defines the amount of structural information that a computationally-bounded observer can extract from the data. Briefly, epilexity is the information in the model that minimizes the description length of data under computational constraints.)を提案。機械学習を実務適用しているときに言う「情報」に近しい印象。
  • そのものが役に立つかというよりは考え方として非常に面白い内容。

Adapting Web Agents with Synthetic Supervision 

  • Adapting Web Agents with Synthetic Supervision [80.9]
    Webエージェントは、環境固有のタスクやデモが不足しているため、新しいWebサイトへの適応に苦慮している。 最近の研究は、この課題に対処するために合成データ生成を探求している。 完全合成監視フレームワークであるSynthAgentを提案する。
    論文  参考訳(メタデータ)   (Sat, 08 Nov 2025 18:45:33 GMT)
  • WEBエージェントを新たなサイトへ対応させるための合成データを活用するアプローチ。「(1) Task Synthesis with Categorized Exploration, which synthesizes diverse, environment specific tasks through categorized exploration. (2) Task Refinement during Trajectory Collection, which collects trajectories while refining task descriptions based on new observations to mitigate potential hallucinations. (3) Trajectory Refinement, which further improves collected trajectories using global context to edit noisy actions. (4) Agent Fine-tuning, which adapts the web agent to new environments under fully synthetic supervision.」という4ステップ構成。
  • リポジトリはGitHub – aiming-lab/SynthAgent

Can LLM Annotations Replace User Clicks for Learning to Rank? 

  • Can LLM Annotations Replace User Clicks for Learning to Rank? [112.2]
    大規模な教師付きデータは最新のランキングモデルのトレーニングには不可欠だが、高品質な人的アノテーションの取得にはコストがかかる。 クリックデータは低コストの代替手段として広く使われており、近年の大規模言語モデル(LLM)の発展に伴い、LLMベースの関連アノテーションも有望なアノテーションとして登場した。 公開データセットであるTianGong-STと、産業データセットであるBaidu-Clickの両方の実験は、クリック管理モデルが高周波クエリでより良いパフォーマンスを示すことを示している。 データスケジューリングと周波数対応多目的学習という2つのトレーニング戦略を検討し、両方の監視信号を統合する。
    論文  参考訳(メタデータ)   (Mon, 10 Nov 2025 02:26:14 GMT)
  • 「We find that models trained on click data can capture semantic matching and document-level signals, with performance advantages in high-frequency queries. Models trained on LLM annotations exhibit a stronger ability to capture semantic matching, with performance advantages in medium- and low-frequency queries, and are better at distinguishing between relevant and irrelevant content compared to those trained on clicks」とのこと。
  • リポジトリはGitHub – Trustworthy-Information-Access/LLMAnn_Click

Scaling Agent Learning via Experience Synthesis

  • Scaling Agent Learning via Experience Synthesis [100.4]
    強化学習(RL)は、対話を通じて自己改善を行うことで、大規模言語モデル(LLM)エージェントを強化することができる。 私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。 高価な実環境のロールアウトに頼るのではなく、DreamGymは環境のダイナミクスを推論ベースのエクスペリエンスモデルに蒸留する。
    論文  参考訳(メタデータ)   (Wed, 05 Nov 2025 18:58:48 GMT)
  • 「To synthesize diverse agent experiences for RL training, DreamGym is built around three key components: (1) a scalable reasoning experience model that encodes the meta-dynamics of the target domain to efficiently generate informative trajectories; (2) an experience replay buffer that integrates offline environment knowledge with online synthetic transitions, co-evolving with the agent to stay aligned with its updated policy; (3) a curriculum task generator that produces progressively challenging variations of high-value tasks selected via a reward-entropy heuristic.」と強力な合成フレームワーク。

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

  • Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks [33.7]
    下流認識タスクを強化するための新しい合成データ生成フレームワークであるDream4Driveを紹介する。 Dream4Driveは入力ビデオを複数の3D対応誘導マップに分解し、これらの誘導マップに3Dアセットをレンダリングする。 駆動世界モデルは、下流の知覚モデルをトレーニングするために使用できる編集されたマルチビュービデオを作成するために微調整される。
    論文  参考訳(メタデータ)   (Fri, 24 Oct 2025 10:10:43 GMT)
  • 「We propose Dream4Drive, a 3D-aware synthetic data generation framework that edits the video with dense guidance maps, producing synthetic data with diverse appearances and geometric consistency.」とデータ合成フレームワークの提案。
  • プロジェクトサイトはRethinking Driving World Model as Synthetic Data Generator for Perception Tasks

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

  • LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training [55.7]
    構造化されたUI状態と遷移を生成するスケーラブルなパラダイムを導入し、大規模にトレーニングトラジェクトリを合成する。 このパラダイムは、多様なUI状態のためのデジタルワールドシミュレータ、コヒーレント探索のためのガイド付きロールアウトプロセス、軌道ラッパーを統合している。 WebArenaとAndroidWorldの実験では、UI-Simulatorは実際のUIでトレーニングされたオープンソースエージェントと競合するか、あるいは超越している。
    論文  参考訳(メタデータ)   (Thu, 16 Oct 2025 17:59:38 GMT)
  • 「We introduced UI-Simulator, a scalable trajectory synthesis paradigm that uses LLM-based digital world simulators to synthesize diverse UI trajectories at scale through multi-step simulation, guided rollouts, and final trajectory wrapping.」とGUIエージェント構築に活用できるデータ合成フレームワークの提案。
  • リポジトリはGitHub – WadeYin9712/UI-Simulator: Code for 🌍 UI-Simulator: LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

InfoAgent: Advancing Autonomous Information-Seeking Agents

  • InfoAgent: Advancing Autonomous Information-Seeking Agents [143.2]
    本稿では,革新的なデータ合成パイプラインとWeb検索ツールを駆使したディープリサーチエージェントInfoAgentを紹介する。 我々の方法では、InfoAgentはBrowseCompで15.3%、BrowseComp-ZHで29.2%、Xbench-DSで40.4%の精度を達成した。
    論文  参考訳(メタデータ)   (Mon, 29 Sep 2025 17:59:57 GMT)
  • Deep Researchエージェントの構築。Qwen3 14Bベースで合成データを活用、「In the first stage, we perform supervised finetuning (SFT) as a cold start, in order to instill long-horizon search behavior into the model.」、「In the second stage, we apply RL to refine its ability of reasoning-driven tool use.」の2段階でのpost training。
  • 合成データ、post trainingの有効性を示す結果で、ベースモデルサイズもお手頃感がある。このようなSLMの開発が流行っていく可能性を感じる結果。

SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents

  • SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.3]
    本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。 我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 02:07:09 GMT)
  • 「we propose a compact synthetic-data reinforcement learning recipe that adapts reasoningoptimized LLMs into native Autonomous Single-Agent systems for Deep Research. Applied to open-source backbones, our best variant attains 28.7% on Humanity’s Last Exam.」と合成データを活用したDeep Researchエージェント構築フレームワークの提案。