Are Your Agents Upward Deceivers? 

  • Are Your Agents Upward Deceivers? [73.1]
    大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。 これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。 本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
    論文  参考訳(メタデータ)   (Thu, 04 Dec 2025 14:47:05 GMT)
  • 「We evaluate 11 widely used LLM-based agents (e g , Deepseek-v3.1-terminus (DeepSeek-AI, 2024), GLM- 4.5 (Zeng et al , 2025), Gemini-2.5-pro (Comanici et al , 2025)) on our task suite, and the results are striking: agen- tic upward deception is pervasive across all agents. They frequently guess, simulate outcomes, or silently switch in- formation sources when a task cannot be completed, yet still return confident and seemingly valid answers without flagging any anomalies. Most concerningly, several models even fabricate a file locally and disguise it as a successfully downloaded one.」との指摘。生成AIを使っているとしばしば目にする動きではあるが、整理されるとなかなかに衝撃的。
  • リポジトリはQingyuLiu/Agentic-Upward-Deception · GitHub

Measuring Agents in Production

  • Measuring Agents in Production [133.8]
    プロダクションエージェントは通常、シンプルで制御可能なアプローチで構築されています。 信頼性は依然として最大の開発課題であり、エージェントの正しさの確保と評価の難しさによって推進されます。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 16:45:10 GMT)
  • AIエージェント利用に関する調査。現状は効率化や人間の補完を目指した利用が多い、課題は信頼性など納得感がある。「Production agents favor well-scoped, static work-flows: 68% execute at most ten steps before requiring human intervention, with 47% executing fewer than five steps. Furthermore, 85% of detailed case studies forgo third-party agent frameworks, opting instead to build custom agent ap- plication from scratch. Organizations deliberately constrain agent autonomy to maintain reliability.」も現状はそうだろうと思いつつ、徐々に変化していくんだろうなと思わなくもない。

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

  • Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction [117.6]
    本稿では,対話型環境の多様性と複雑さを体系的にスケールする手法を提案する。 本手法は,3次元に対処することで,このスケーリングを実現する。 Nex-N1は、インフラストラクチャによって確立された多様な複雑なインタラクティブ環境に基づいてトレーニングします。
    論文  参考訳(メタデータ)   (Thu, 04 Dec 2025 16:57:02 GMT)
  • 「NexA4A (Agent for Agent), a generative system that automatically synthesizes diverse agent architectures and workflows from natural language specifications; and NexGAP (General Agent-data Pipeline), which leverages real-world Model Context Protocol (MCP) tools and information fusion to generate massive-scale, end-to-end trajectories rooted in authentic execution.」とエージェント化を前提とした軌跡生成のフレームワーク。「Future work will focus on evolving this infrastructure into a large-scale simulation platform for Reinforcement Learning. We aim to automatically construct environments that are not only highly diverse and increasingly difficult but also objectively verifiable.」と書かれたFuture workに期待大。
  • リポジトリはGitHub – nex-agi/Nex-N1

Latent Collaboration in Multi-Agent Systems 

  • Latent Collaboration in Multi-Agent Systems [140.5]
    マルチエージェントシステム(MAS)は、独立した単一モデル推論から協調的なシステムレベルのインテリジェンスへと拡張される。 LLMエージェント間の純粋な遅延協調を可能にするエンドツーエンドのトレーニングフリーフレームワークであるLatentMASを紹介する。
    論文  参考訳(メタデータ)   (Tue, 25 Nov 2025 18:56:57 GMT)
  • 「we introduce LatentMAS, an end-to-end collaborative framework that operates entirely within the continuous latent space. Our core design integrates both internal latent thoughts generation and cross-agent latent working memory transfer.」というフレームワーク、表現力的にも計算コスト的に有利だろうというのは納得感がある。
  • リポジトリはGitHub – Gen-Verse/LatentMAS: Latent Collaboration in Multi-Agent Systems (LatentMAS)

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

  • Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.7]
    大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。 我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。 Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
    論文  参考訳(メタデータ)   (Thu, 20 Nov 2025 05:01:57 GMT)
  • 「we initialize two functionally distinct agents: an execu- tor agent and a curriculum agent. These agents co-evolve through a symbiotic competition: the curriculum agent is trained using RL (Shao et al , 2024) to propose frontier tasks that precisely challenge the executor’s current capabilities, using the executor’s uncertainty (i.e., self-consistency across multiple answers) and its frequency of tool use as reward signals. Concurrently, the executor agent is trained via RL to successfully solve these tasks, optimizing on a filtered set of challenging problems generated by the frozen curriculum agent and using pseudo-labels derived from its own majority voting. Equipping the executor with a tool enhances its problem-solving abilities, which in turn com- pels the tool-equipped curriculum agent to generate more complex, tool-based curricula.」という複数エージェントを活用した共進化なフレームワーク。Agent構築においても近いアプローチが流行っているように思う。
  • リポジトリはGitHub – aiming-lab/Agent0: [arXiv’25] Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents 

  • The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents [46.3]
    本稿では,ソフトウェア開発エージェントを実装するツールキットであるOpenHands Software Agent SDKを紹介する。 柔軟性を達成するために、デフォルトケースで数行のコードしか必要としないエージェントを実装するためのシンプルなインターフェースを設計する。 セキュリティと信頼性のために、シームレスなローカル-リモート実行ポータビリティ、REST/WebSocketサービスの統合を提供する。
    論文  参考訳(メタデータ)   (Wed, 05 Nov 2025 18:16:44 GMT)
  • OpenHandsの論文。「Unlike prior library-only SDKs (Anthropic, 2025a; OpenAI, 2024), OpenHands includes a built-in REST/WebSocket server for remote execution and a suite of interactive workspace interfaces—a browser-based VSCode IDE, VNC desktop, and persistent Chromium browser—for human inspection and control.」と統合された環境としても優秀。
  • リポジトリはGitHub – OpenHands/software-agent-sdk: A clean, modular SDK for building AI agents with OpenHands V1.

Scaling Agent Learning via Experience Synthesis

  • Scaling Agent Learning via Experience Synthesis [100.4]
    強化学習(RL)は、対話を通じて自己改善を行うことで、大規模言語モデル(LLM)エージェントを強化することができる。 私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。 高価な実環境のロールアウトに頼るのではなく、DreamGymは環境のダイナミクスを推論ベースのエクスペリエンスモデルに蒸留する。
    論文  参考訳(メタデータ)   (Wed, 05 Nov 2025 18:58:48 GMT)
  • 「To synthesize diverse agent experiences for RL training, DreamGym is built around three key components: (1) a scalable reasoning experience model that encodes the meta-dynamics of the target domain to efficiently generate informative trajectories; (2) an experience replay buffer that integrates offline environment knowledge with online synthetic transitions, co-evolving with the agent to stay aligned with its updated policy; (3) a curriculum task generator that produces progressively challenging variations of high-value tasks selected via a reward-entropy heuristic.」と強力な合成フレームワーク。

How Do AI Agents Do Human Work? Comparing AI and Human Workflows Across Diverse Occupations 

  • How Do AI Agents Do Human Work? Comparing AI and Human Workflows Across Diverse Occupations [112.6]
    エージェントが人間とエージェントの労働者の直接比較を初めて提示することで、エージェントがどのように人間の仕事をするかを考察する。 結果が88.3%速く、コストが90.4-96.2%低いことが判明した。
    論文  参考訳(メタデータ)   (Sun, 26 Oct 2025 18:10:22 GMT)
  • 人間とエージェントの比較、様々な課題も指摘されているが「Compared to an average human worker, agents deliver work 88.3–96.6% faster and at 90.4–96.2% lower costs. Our induced workflows naturally suggest a division of labor: readily programmable steps can be delegated to agents for efficiency, while humans handle the steps where agents fall short.」との結果はやや驚き。
    • 「One quarter of human activities we studied involve AI tools, with most used for augmentation purposes: integrating AI into existing workflows with minimal disruption, while improving efficiency by 24.3%. In contrast, AI automation markedly reshapes workflows and slows human work by 17.7%, largely due to additional time spent on verification and debugging (Figure 5).」はまぁそんなものか、という印象はあるが。。
  • ツールキットが公開されている。GitHub – zorazrw/workflow-induction-toolkit: A toolkit to induce interpretable workflows from raw computer-use activities.
  • Remote Labor Index: Measuring AI Automation of Remote Work [46.5]
    AIは、研究指向の知識と推論のベンチマークを急速に進歩させたが、これらの成果が経済的価値と自動化にどのように変換されるかは、まだ不明である。 これを測定するために、実世界の経済的に価値のあるプロジェクトからなる広範囲にわたるマルチセクタベンチマークであるRemote Labor Index (RLI)を導入する。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 17:58:04 GMT)
  • こちらは「RLI establishes an economically grounded measure of AI automation capacity, with 240 projects spanning 23 domains of digital freelance work, each anchored in demonstrated market value. Frontier AI agents perform near the floor on RLI, achieving an automation rate of less than 3%, revealing a stark gap between progress on computer use evaluations and the ability to perform real and economically valuable work.」と指摘。

The Era of Agentic Organization: Learning to Organize with Language Models

  • The Era of Agentic Organization: Learning to Organize with Language Models [107.4]
    我々は,非同期思考(AsyncThink)を大規模言語モデルを用いた推論の新しいパラダイムとして紹介する。 実験では、AsyncThinkは並列思考に比べて28%低い推論遅延を実現している。 AsyncThinkは学習した非同期思考機能を一般化し、未確認タスクを追加のトレーニングなしで効果的に処理する。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 16:25:10 GMT)
  • マルチエージェントのように非同期処理を行えるフレームワーク。「In this work, we introduce asynchronous thinking (AsyncThink) as a new paradigm for reasoning with large language models, with the goal of learning to organize the internal thinking into con- currently executable structures. Specifically, we propose a thinking protocol where an LLM plays both roles: an organizer that dynamically structures the process through Fork and Join actions, and workers that execute sub-queries and return intermediate knowledge or results.」
  • プロジェクトサイトはAdvancing AI for Humanity

When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents

  • When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents [74.6]
    Agent Market Arena (AMA)は、LLM(Large Language Model)ベースのトレーディングエージェントを評価するための、初めてのリアルタイムベンチマークである。 AMAは、検証済みのトレーディングデータ、専門家チェックされたニュース、および統一されたトレーディングフレームワーク内に多様なエージェントアーキテクチャを統合する。 GPT-4o、GPT-4.1、Claude-3.5-haiku、Claude-sonnet-4、Gemini-2.0-flashにまたがる評価する。
    論文  参考訳(メタデータ)   (Mon, 13 Oct 2025 17:54:09 GMT)
  • トレーニングエージェント評価のための環境
  • プロジェクトサイトはFinAI