コンテンツへスキップ
- SurveyGen-I: Consistent Scientific Survey Generation with Evolving Plans and Memory-Guided Writing [4.2]
SurveyGen-Iは、粗大な検索、適応計画、メモリ誘導生成を組み合わせた自動サーベイ生成フレームワークである。 4つの科学的領域にわたる実験では、SurveyGen-Iはコンテンツ品質、一貫性、引用カバレッジにおいて、従来よりも一貫して優れていた。
論文 参考訳(メタデータ) (Wed, 20 Aug 2025 00:03:46 GMT)
- 凝った構成のサーベイ生成フレームワークの提案
- (1) Literature Retrieval (LR) performs multi- stage literature retrieval at both survey and subsec- tion levels.
- (2) Structure Planning with Dynamic Outline Evolution (PlanEvo) generates a hierarchical outline and a dependency-aware writing plan, and dynamically updates both during generation to ensure cross-subsection consistency of the survey.
- (3) CaM-Writing generates each subsection with strong content consistency and rich citation coverage, combining citation-traced retrieval to recover influential references, memory-guided skeleton planning for content consistency, and best-of-N draft selection to ensure high-quality generation.
- リポジトリはGitHub – SurveyGens/SurveyGen-I
- BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining [13.2]
プレトレーニングのための高品質な合成データを生成する合成データ生成フレームワークであるBeyondWebを紹介した。 BeyondWebは、従来のWebスケールデータセットの機能を大幅に拡張した。 オープンなWebデータよりも最大7.7倍、Nemotron-Synthより2.7倍高速なトレーニングを提供する。
論文 参考訳(メタデータ) (Thu, 14 Aug 2025 17:55:47 GMT)
- 様々な観点からの評価を行っているが「The data wall is not unsurpassable; it can be broken through strategic synthetic data generation.」という主張に驚き
- WideSearch: Benchmarking Agentic Broad Info-Seeking [22.3]
大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介する。 ベンチマークでは、実際のユーザクエリに基づいて、15以上のさまざまなドメインから200の質問を手作業でキュレートする。 我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
論文 参考訳(メタデータ) (Mon, 11 Aug 2025 14:03:09 GMT)
- LLM- Agent 、特に情報収集タスクに関するベンチマークの提案。OpenAI o3の清野が高いがKimi K2も良い性能。
- プロジェクトサイトはWideSearch: Benchmarking Agentic Broad Info-Seeking