A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems 

  • A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [44.2]
    既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。 近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。 この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
    論文  参考訳(メタデータ)   (Sun, 10 Aug 2025 16:07:32 GMT)
  • 自己進化に関するサーベイ。AGIが近づいている感がある。
  • リポジトリはGitHub – EvoAgentX/Awesome-Self-Evolving-Agents

aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists 

  • aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists [22.3]
    私たちは、人間とAI科学者のための次世代オープンアクセスプラットフォームであるaiXivを紹介します。 我々の研究は、AI科学者のための次世代のオープンアクセスエコシステムの基礎を築いた。
    論文  参考訳(メタデータ)   (Wed, 20 Aug 2025 23:16:41 GMT)
  • 「closed-loop review system for both proposals and papers, incorporating automatic retrieval- augmented evaluation, reviewer guidance, and robust defenses against prompt injection.」を持ちAPI,MCPサーバも提供されるプラットフォーム。
  • リポジトリはGitHub – aixiv-org/aiXiv: Preprint server for AI Scientists and Robot Scientists

SurveyGen-I: Consistent Scientific Survey Generation with Evolving Plans and Memory-Guided Writing

  • SurveyGen-I: Consistent Scientific Survey Generation with Evolving Plans and Memory-Guided Writing [4.2]
    SurveyGen-Iは、粗大な検索、適応計画、メモリ誘導生成を組み合わせた自動サーベイ生成フレームワークである。 4つの科学的領域にわたる実験では、SurveyGen-Iはコンテンツ品質、一貫性、引用カバレッジにおいて、従来よりも一貫して優れていた。
    論文  参考訳(メタデータ)   (Wed, 20 Aug 2025 00:03:46 GMT)
  • 凝った構成のサーベイ生成フレームワークの提案
    • (1) Literature Retrieval (LR) performs multi- stage literature retrieval at both survey and subsec- tion levels.
    • (2) Structure Planning with Dynamic Outline Evolution (PlanEvo) generates a hierarchical outline and a dependency-aware writing plan, and dynamically updates both during generation to ensure cross-subsection consistency of the survey.
    • (3) CaM-Writing generates each subsection with strong content consistency and rich citation coverage, combining citation-traced retrieval to recover influential references, memory-guided skeleton planning for content consistency, and best-of-N draft selection to ensure high-quality generation.
  • リポジトリはGitHub – SurveyGens/SurveyGen-I

BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

  • BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining [13.2]
    プレトレーニングのための高品質な合成データを生成する合成データ生成フレームワークであるBeyondWebを紹介した。 BeyondWebは、従来のWebスケールデータセットの機能を大幅に拡張した。 オープンなWebデータよりも最大7.7倍、Nemotron-Synthより2.7倍高速なトレーニングを提供する。
    論文  参考訳(メタデータ)   (Thu, 14 Aug 2025 17:55:47 GMT)
  • 様々な観点からの評価を行っているが「The data wall is not unsurpassable; it can be broken through strategic synthetic data generation.」という主張に驚き

WideSearch: Benchmarking Agentic Broad Info-Seeking

  • WideSearch: Benchmarking Agentic Broad Info-Seeking [22.3]
    大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介する。 ベンチマークでは、実際のユーザクエリに基づいて、15以上のさまざまなドメインから200の質問を手作業でキュレートする。 我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
    論文  参考訳(メタデータ)   (Mon, 11 Aug 2025 14:03:09 GMT)
  • LLM- Agent 、特に情報収集タスクに関するベンチマークの提案。OpenAI o3の清野が高いがKimi K2も良い性能。
  • プロジェクトサイトはWideSearch: Benchmarking Agentic Broad Info-Seeking

Deep Think with Confidence

  • Deep Think with Confidence [33.2]
    私たちはDeep Think with Conf(DeepConf)という,テスト時の推論効率とパフォーマンスを両立させる,シンプルかつ強力な手法を紹介します。 DeepConfは、生成時に低品質な推論トレースを動的にフィルタリングし、トークン生成を削減しながら精度を維持または向上させます。評価の結果、DeepConfはAIME 2025などの課題で99.9%の精度を達成し、従来の方法に比べて84.7%のトークン削減を実現しました。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 05:48:38 GMT)
  • モデル内の確信度を活用して推論を制御する手法の提案。シンプルだが強力とのこと。
  • リポジトリはDeep Think with Confidence

A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models 

  • A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models [50.0]
    トークン・バイ・トークン生成のボトルネックを突破することを目的とした並列テキスト生成技術。 既存のアプローチをARベースのパラダイムと非ARベースのパラダイムに分類する。 速度、品質、効率の観点から理論上のトレードオフを評価します。
    論文  参考訳(メタデータ)   (Tue, 12 Aug 2025 07:56:04 GMT)
  • 主として高速化を目的としたParallel Text Generationのサーベイ。
  • AR-based、Non-AR-basedの両面での調査となっている。

LLM-Driven Self-Refinement for Embodied Drone Task Planning

  • LLM-Driven Self-Refinement for Embodied Drone Task Planning [29.2]
    SRDroneは産業用ドローンの自己補充作業計画のために設計された新しいシステムである。 継続的状態評価手法を取り入れて、タスクの成果を堅牢かつ正確に決定する。 また、BT(hierarchical Behavior Tree)修正モデルを実装している。
    論文  参考訳(メタデータ)   (Thu, 21 Aug 2025 12:29:01 GMT)
  • ドローンの行動計画生成、self-evolving BTs(behavior tree)と、ミッション実行中の継続的な状態評価と細かい動作ツリー(BT)による計画修正を行う点が特徴的。
  • リポジトリはGitHub – ZXiiiC/SRDrone: Implementation of SRDrone

MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models 

  • MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.6]
    MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。 MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。 マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
    論文  参考訳(メタデータ)   (Mon, 11 Aug 2025 03:14:55 GMT)
  • 「In this paper, we introduced MME-Emotion, a comprehensive multi-task benchmark for evaluating emotional intelligence in MLLMs, accompanied by a holistic evaluation suite. The assessment process was fully automated within a multi-agent system framework and thoroughly validated by human experts.」という感情に焦点を当てたベンチマークの提案。
  • プロジェクトサイトはhttps://mme-emotion.github.io/とのこと。

INTIMA: A Benchmark for Human-AI Companionship Behavior

  • INTIMA: A Benchmark for Human-AI Companionship Behavior [7.4]
    AIとの感情的な絆を形成する「AIの伴侶性」が注目され、特にユーザーとの関係の質が重要視されている。新たに提案されたINTIMAは、31の行動カテゴリから成るタクソノミーを持ち、AIの反応を評価する方法を提供する。この評価手法は、AIとの感情的なやり取りにおける一貫したアプローチの必要性を示唆しており、ユーザーの幸福に寄与するための境界設定と感情的支援の重要性を浮き彫りにしている。
    論文  参考訳(メタデータ)   (Mon, 04 Aug 2025 08:25:38 GMT)
  • 「NTIMA To evaluate how language models respond to emotionally and relationally charged user behaviors, we introduce IN- TIMA: the Interactions and Machine Attachment Benchmark. INTIMA contains 368 benchmark prompts and is de- signed to assess whether LLMs reinforce, resist, or misinterpret companionship-seeking interactions, based on empirical patterns from real-world user data from Reddit and grounded in psychological and social science theory.」というベンチマーク。興味深い一方でこの手のタスクを測らないといけないくらい進化していることに驚く最近。
  • リポジトリはAI-companionship/INTIMA · Datasets at Hugging Face