Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

  • Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing [83.5]
    我々は、人間のサイバーセキュリティ専門家に対するAIエージェントの包括的な評価を初めて提示する。 我々は、既存の6人のAIエージェントと、新しいエージェントの足場であるARTEMISとともに、10人のサイバーセキュリティ専門家を評価します。 ARTEMISは総合的に第2位で、9つの有効な脆弱性と82%の有効な提出率を発見した。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 18:12:29 GMT)
  • 「We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six existing AI agents and ARTEMIS, our new agent scaffold, on a large university network consisting of ∼8,000 hosts across 12 subnets. ARTEMIS is a multi-agent framework featuring dynamic prompt generation, arbitrary sub-agents, and automatic vulnerability triaging. In our comparative study, ARTEMIS placed second overall, discovering 9 valid vulnerabilities with an 82% valid submission rate and outperforming 9 of 10 human participants.」とAIエージェント vs 人間の比較。このような分析は今後も様々な分野で実施されていくのだと思いつつ、どのように役割分担していくのか(将来的に人間に残される要素はあるのか)など気になるところ。
  • リポジトリはGitHub – Stanford-Trinity/ARTEMIS、プロジェクトサイトはTrinity – Stanford Research

Towards a Science of Scaling Agent Systems 

  • Towards a Science of Scaling Agent Systems [79.6]
    エージェント、言語モデル(LM)ベースのシステムでは、推論、計画、行動が現実のAIアプリケーションの主要なパラダイムになりつつある。 この広く採用されているにもかかわらず、彼らのパフォーマンスを決定する原則は未定のままである。 エージェントシステムのスケーリング原理を導出することで、このギャップに対処する。
    論文  参考訳(メタデータ)   (Tue, 09 Dec 2025 06:52:21 GMT)
  • マルチエージェント化に利点があるのか?が興味深い論文。「We reveal that multi-agent performance exhibits an inverted-U relationship with coordination complexity, with benefits diminishing beyond moderate coordination levels. Domain complexity emerges as the strongest performance predictor (𝛽= −0.114, 𝑝< 0.002), reducing MAS advantage more substantially than architectural choices. Performance gains vary dramatically by task structure: +80.9% on Finance Agent versus −70.0% on PlanCraft, indicating that coordination benefits depend tightly on task decomposability.」と納得感がある(というかそうだよねという)結果

InnoGym: Benchmarking the Innovation Potential of AI Agents 

  • InnoGym: Benchmarking the Innovation Potential of AI Agents [74.6]
    InnoGymはAIエージェントのイノベーションの可能性を評価するために設計された最初のベンチマークである。 InnoGymは2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 16:03:04 GMT)
  • 「InnoGym consists of two complementary components: iBench, a benchmark designed to evaluate innovation capability, and iGym, a unified development and execution environment. iBench covers 18 carefully curated tasks drawn from real-world engineering and theoretical problems. We focus only on Improvable Tasks, which leave clear room for improvement in both solution quality and methodology.」というAIエージェントがイノベーションを起こせるかを計測しようとするベンチマーク
  • リポジトリはhttps://github.com/zjunlp/igym

Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning

  • Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning [102.1]
    ThinkMergeは、トレーニング不要でプラグ&プレイのデコード戦略だ。 並列推論トレースをKで実行し、同期点における次のTokenロジットを平均化し、単一のコヒーレントな出力を生成する。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 15:35:31 GMT)
  • 「(i) generate K diverse reasoning traces up to a delimiter token, e g </think> (ii) after the delimiter, decode one shared answer sequence by averaging the next- token logits across all K reasoning contexts at every autoregressive step.」という複数の思考を束ねるTHINKMERGEの提案、性能向上を確認とのこと。

Are Your Agents Upward Deceivers? 

  • Are Your Agents Upward Deceivers? [73.1]
    大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。 これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。 本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
    論文  参考訳(メタデータ)   (Thu, 04 Dec 2025 14:47:05 GMT)
  • 「We evaluate 11 widely used LLM-based agents (e g , Deepseek-v3.1-terminus (DeepSeek-AI, 2024), GLM- 4.5 (Zeng et al , 2025), Gemini-2.5-pro (Comanici et al , 2025)) on our task suite, and the results are striking: agen- tic upward deception is pervasive across all agents. They frequently guess, simulate outcomes, or silently switch in- formation sources when a task cannot be completed, yet still return confident and seemingly valid answers without flagging any anomalies. Most concerningly, several models even fabricate a file locally and disguise it as a successfully downloaded one.」との指摘。生成AIを使っているとしばしば目にする動きではあるが、整理されるとなかなかに衝撃的。
  • リポジトリはQingyuLiu/Agentic-Upward-Deception · GitHub

Measuring Agents in Production

  • Measuring Agents in Production [133.8]
    プロダクションエージェントは通常、シンプルで制御可能なアプローチで構築されています。 信頼性は依然として最大の開発課題であり、エージェントの正しさの確保と評価の難しさによって推進されます。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 16:45:10 GMT)
  • AIエージェント利用に関する調査。現状は効率化や人間の補完を目指した利用が多い、課題は信頼性など納得感がある。「Production agents favor well-scoped, static work-flows: 68% execute at most ten steps before requiring human intervention, with 47% executing fewer than five steps. Furthermore, 85% of detailed case studies forgo third-party agent frameworks, opting instead to build custom agent ap- plication from scratch. Organizations deliberately constrain agent autonomy to maintain reliability.」も現状はそうだろうと思いつつ、徐々に変化していくんだろうなと思わなくもない。

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

  • Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction [117.6]
    本稿では,対話型環境の多様性と複雑さを体系的にスケールする手法を提案する。 本手法は,3次元に対処することで,このスケーリングを実現する。 Nex-N1は、インフラストラクチャによって確立された多様な複雑なインタラクティブ環境に基づいてトレーニングします。
    論文  参考訳(メタデータ)   (Thu, 04 Dec 2025 16:57:02 GMT)
  • 「NexA4A (Agent for Agent), a generative system that automatically synthesizes diverse agent architectures and workflows from natural language specifications; and NexGAP (General Agent-data Pipeline), which leverages real-world Model Context Protocol (MCP) tools and information fusion to generate massive-scale, end-to-end trajectories rooted in authentic execution.」とエージェント化を前提とした軌跡生成のフレームワーク。「Future work will focus on evolving this infrastructure into a large-scale simulation platform for Reinforcement Learning. We aim to automatically construct environments that are not only highly diverse and increasingly difficult but also objectively verifiable.」と書かれたFuture workに期待大。
  • リポジトリはGitHub – nex-agi/Nex-N1

Latent Collaboration in Multi-Agent Systems 

  • Latent Collaboration in Multi-Agent Systems [140.5]
    マルチエージェントシステム(MAS)は、独立した単一モデル推論から協調的なシステムレベルのインテリジェンスへと拡張される。 LLMエージェント間の純粋な遅延協調を可能にするエンドツーエンドのトレーニングフリーフレームワークであるLatentMASを紹介する。
    論文  参考訳(メタデータ)   (Tue, 25 Nov 2025 18:56:57 GMT)
  • 「we introduce LatentMAS, an end-to-end collaborative framework that operates entirely within the continuous latent space. Our core design integrates both internal latent thoughts generation and cross-agent latent working memory transfer.」というフレームワーク、表現力的にも計算コスト的に有利だろうというのは納得感がある。
  • リポジトリはGitHub – Gen-Verse/LatentMAS: Latent Collaboration in Multi-Agent Systems (LatentMAS)

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

  • Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.7]
    大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。 我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。 Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
    論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 05:01:57 GMT)
  • 「we initialize two functionally distinct agents: an execu- tor agent and a curriculum agent. These agents co-evolve through a symbiotic competition: the curriculum agent is trained using RL (Shao et al , 2024) to propose frontier tasks that precisely challenge the executor’s current capabilities, using the executor’s uncertainty (i.e., self-consistency across multiple answers) and its frequency of tool use as reward signals. Concurrently, the executor agent is trained via RL to successfully solve these tasks, optimizing on a filtered set of challenging problems generated by the frozen curriculum agent and using pseudo-labels derived from its own majority voting. Equipping the executor with a tool enhances its problem-solving abilities, which in turn com- pels the tool-equipped curriculum agent to generate more complex, tool-based curricula.」という複数エージェントを活用した共進化なフレームワーク。Agent構築においても近いアプローチが流行っているように思う。
  • リポジトリはGitHub – aiming-lab/Agent0: [arXiv’25] Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents 

  • The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents [46.3]
    本稿では,ソフトウェア開発エージェントを実装するツールキットであるOpenHands Software Agent SDKを紹介する。 柔軟性を達成するために、デフォルトケースで数行のコードしか必要としないエージェントを実装するためのシンプルなインターフェースを設計する。 セキュリティと信頼性のために、シームレスなローカル-リモート実行ポータビリティ、REST/WebSocketサービスの統合を提供する。
    論文  参考訳(メタデータ)   (Wed, 05 Nov 2025 18:16:44 GMT)
  • OpenHandsの論文。「Unlike prior library-only SDKs (Anthropic, 2025a; OpenAI, 2024), OpenHands includes a built-in REST/WebSocket server for remote execution and a suite of interactive workspace interfaces—a browser-based VSCode IDE, VNC desktop, and persistent Chromium browser—for human inspection and control.」と統合された環境としても優秀。
  • リポジトリはGitHub – OpenHands/software-agent-sdk: A clean, modular SDK for building AI agents with OpenHands V1.