コンテンツへスキップ
- Scaling Agent Learning via Experience Synthesis [100.4]
強化学習(RL)は、対話を通じて自己改善を行うことで、大規模言語モデル(LLM)エージェントを強化することができる。 私たちはDreamGymを紹介します。DreamGymはスケーラビリティを念頭において多様なエクスペリエンスを合成するために設計された最初の統合フレームワークです。 高価な実環境のロールアウトに頼るのではなく、DreamGymは環境のダイナミクスを推論ベースのエクスペリエンスモデルに蒸留する。
論文 参考訳(メタデータ) (Wed, 05 Nov 2025 18:58:48 GMT)
- 「To synthesize diverse agent experiences for RL training, DreamGym is built around three key components: (1) a scalable reasoning experience model that encodes the meta-dynamics of the target domain to efficiently generate informative trajectories; (2) an experience replay buffer that integrates offline environment knowledge with online synthetic transitions, co-evolving with the agent to stay aligned with its updated policy; (3) a curriculum task generator that produces progressively challenging variations of high-value tasks selected via a reward-entropy heuristic.」と強力な合成フレームワーク。
- How Do AI Agents Do Human Work? Comparing AI and Human Workflows Across Diverse Occupations [112.6]
エージェントが人間とエージェントの労働者の直接比較を初めて提示することで、エージェントがどのように人間の仕事をするかを考察する。 結果が88.3%速く、コストが90.4-96.2%低いことが判明した。
論文 参考訳(メタデータ) (Sun, 26 Oct 2025 18:10:22 GMT)
- 人間とエージェントの比較、様々な課題も指摘されているが「Compared to an average human worker, agents deliver work 88.3–96.6% faster and at 90.4–96.2% lower costs. Our induced workflows naturally suggest a division of labor: readily programmable steps can be delegated to agents for efficiency, while humans handle the steps where agents fall short.」との結果はやや驚き。
- 「One quarter of human activities we studied involve AI tools, with most used for augmentation purposes: integrating AI into existing workflows with minimal disruption, while improving efficiency by 24.3%. In contrast, AI automation markedly reshapes workflows and slows human work by 17.7%, largely due to additional time spent on verification and debugging (Figure 5).」はまぁそんなものか、という印象はあるが。。
- ツールキットが公開されている。GitHub – zorazrw/workflow-induction-toolkit: A toolkit to induce interpretable workflows from raw computer-use activities.
- Remote Labor Index: Measuring AI Automation of Remote Work [46.5]
AIは、研究指向の知識と推論のベンチマークを急速に進歩させたが、これらの成果が経済的価値と自動化にどのように変換されるかは、まだ不明である。 これを測定するために、実世界の経済的に価値のあるプロジェクトからなる広範囲にわたるマルチセクタベンチマークであるRemote Labor Index (RLI)を導入する。
論文 参考訳(メタデータ) (Thu, 30 Oct 2025 17:58:04 GMT)
- こちらは「RLI establishes an economically grounded measure of AI automation capacity, with 240 projects spanning 23 domains of digital freelance work, each anchored in demonstrated market value. Frontier AI agents perform near the floor on RLI, achieving an automation rate of less than 3%, revealing a stark gap between progress on computer use evaluations and the ability to perform real and economically valuable work.」と指摘。
- The Era of Agentic Organization: Learning to Organize with Language Models [107.4]
我々は,非同期思考(AsyncThink)を大規模言語モデルを用いた推論の新しいパラダイムとして紹介する。 実験では、AsyncThinkは並列思考に比べて28%低い推論遅延を実現している。 AsyncThinkは学習した非同期思考機能を一般化し、未確認タスクを追加のトレーニングなしで効果的に処理する。
論文 参考訳(メタデータ) (Thu, 30 Oct 2025 16:25:10 GMT)
- マルチエージェントのように非同期処理を行えるフレームワーク。「In this work, we introduce asynchronous thinking (AsyncThink) as a new paradigm for reasoning with large language models, with the goal of learning to organize the internal thinking into con- currently executable structures. Specifically, we propose a thinking protocol where an LLM plays both roles: an organizer that dynamically structures the process through Fork and Join actions, and workers that execute sub-queries and return intermediate knowledge or results.」
- プロジェクトサイトはAdvancing AI for Humanity
- When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents [74.6]
Agent Market Arena (AMA)は、LLM(Large Language Model)ベースのトレーディングエージェントを評価するための、初めてのリアルタイムベンチマークである。 AMAは、検証済みのトレーディングデータ、専門家チェックされたニュース、および統一されたトレーディングフレームワーク内に多様なエージェントアーキテクチャを統合する。 GPT-4o、GPT-4.1、Claude-3.5-haiku、Claude-sonnet-4、Gemini-2.0-flashにまたがる評価する。
論文 参考訳(メタデータ) (Mon, 13 Oct 2025 17:54:09 GMT)
- トレーニングエージェント評価のための環境
- プロジェクトサイトはFinAI、
- Fundamentals of Building Autonomous LLM Agents [64.4]
本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。 この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
論文 参考訳(メタデータ) (Fri, 10 Oct 2025 10:32:39 GMT)
- 「This paper is based on a seminar technical report from the course Trends in Autonomous Agents: Advances in Architecture and Practice offered at TUM.」とエージェント構築における教科書的な内容。
- ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.1]
外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。 このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。 構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 04:11:16 GMT)
- LLMが使用するツールを整理するためのフレームワーク。ツールを自動作成しているアプローチもあるのでその整理は有用。
- リポジトリはGitHub – SalesforceAIResearch/ToolLibGen
- Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI [27.2]
エージェントAIの急速な進化は、人工知能の新しいフェーズを象徴している。 この調査はエージェントAI構築におけるパラダイムシフトをトレースする。 それぞれの能力が外部スクリプトモジュールからエンドツーエンドの学習行動へとどのように進化したかを調べる。
論文 参考訳(メタデータ) (Sun, 19 Oct 2025 05:23:43 GMT)
- 「The rapid evolution of agentic AI marks a new phase in artificial intelligence, where Large Language Models (LLMs) no longer merely respond but act, reason, and adapt. This survey traces the paradigm shift in building agentic AI: from Pipeline-based systems, where planning, tool use, and memory are orchestrated by external logic, to the emerging Model-native paradigm, where these capabilities are internalized within the model’s parameters.」とAIエージェントの進化に関するサーベイ。整理の仕方が興味深い。
- リポジトリはGitHub – ADaM-BJTU/model-native-agentic-ai: Our survey’s paper list on Agentic AI, continuously updated with the latest research.
- Agent Learning via Early Experience [93.8]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。 現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。 本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文 参考訳(メタデータ) (Thu, 09 Oct 2025 17:59:17 GMT)
- 「We address this limitation with a middle-ground paradigm we call early experience: interaction data generated by the agent’s own actions, where the resulting future states serve as supervision without reward signals. Within this paradigm we study two strategies of using such data: (1) Implicit world modeling, which uses collected states to ground the policy in environment dynamics; and (2) Self-reflection, where the agent learns from its suboptimal actions to improve reasoning and decision-making.」とSFTに代わるトレーニング手法を提案。
- WALT: Web Agents that Learn Tools [66.7]
WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。 WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。 VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
論文 参考訳(メタデータ) (Wed, 01 Oct 2025 23:41:47 GMT)
- 「instead of reasoning about how to click and type, agents simply call search(query) or create(listing). This shifts the computational burden from fragile step- by-step reasoning to reliable tool invocation.」というアプローチによるWEBエージェントの構築。
- この手のエージェントが流行るとWEBサイトのあり方も変わっていくように思う。