Fundamentals of Building Autonomous LLM Agents 

  • Fundamentals of Building Autonomous LLM Agents [64.4]
    本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。 この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
    論文  参考訳(メタデータ)   (Fri, 10 Oct 2025 10:32:39 GMT)
  • 「This paper is based on a seminar technical report from the course Trends in Autonomous Agents: Advances in Architecture and Practice offered at TUM.」とエージェント構築における教科書的な内容。

ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning

  • ToolLibGen: Scalable Automatic Tool Creation and Aggregation for LLM Reasoning [80.1]
    外部ツールを備えたLarge Language Models (LLM) は、複雑な推論タスクにおけるパフォーマンスの向上を実証している。 このツールに強化された推論が広く採用されるのは、ドメイン固有のツールが不足しているためである。 構造化ツールライブラリに非構造化ツールのコレクションを自動的に組み込むための体系的なアプローチを提案する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 04:11:16 GMT)
  • LLMが使用するツールを整理するためのフレームワーク。ツールを自動作成しているアプローチもあるのでその整理は有用。
  • リポジトリはGitHub – SalesforceAIResearch/ToolLibGen

Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI 

  • Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI [27.2]
    エージェントAIの急速な進化は、人工知能の新しいフェーズを象徴している。 この調査はエージェントAI構築におけるパラダイムシフトをトレースする。 それぞれの能力が外部スクリプトモジュールからエンドツーエンドの学習行動へとどのように進化したかを調べる。
    論文  参考訳(メタデータ)   (Sun, 19 Oct 2025 05:23:43 GMT)
  • 「The rapid evolution of agentic AI marks a new phase in artificial intelligence, where Large Language Models (LLMs) no longer merely respond but act, reason, and adapt. This survey traces the paradigm shift in building agentic AI: from Pipeline-based systems, where planning, tool use, and memory are orchestrated by external logic, to the emerging Model-native paradigm, where these capabilities are internalized within the model’s parameters.」とAIエージェントの進化に関するサーベイ。整理の仕方が興味深い。
  • リポジトリはGitHub – ADaM-BJTU/model-native-agentic-ai: Our survey’s paper list on Agentic AI, continuously updated with the latest research.

Agent Learning via Early Experience 

  • Agent Learning via Early Experience [93.8]
    言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。 現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。 本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
    論文  参考訳(メタデータ)   (Thu, 09 Oct 2025 17:59:17 GMT)
  • 「We address this limitation with a middle-ground paradigm we call early experience: interaction data generated by the agent’s own actions, where the resulting future states serve as supervision without reward signals. Within this paradigm we study two strategies of using such data: (1) Implicit world modeling, which uses collected states to ground the policy in environment dynamics; and (2) Self-reflection, where the agent learns from its suboptimal actions to improve reasoning and decision-making.」とSFTに代わるトレーニング手法を提案。

LLM/Agent-as-Data-Analyst: A Survey

  • LLM/Agent-as-Data-Analyst: A Survey [51.2]
    大規模言語モデル(LLM)とデータ分析のためのエージェント技術は、学術と産業の両方に大きな影響を与えている。 この技術進化は、インテリジェントなデータ分析エージェントのための5つの重要な設計目標、すなわちセマンティック・アウェア・デザイン、ハイブリッド統合、自律パイプライン、ツールの拡張されたモダリティ、オープンワールドタスクのサポートをさらに強化する。
    論文  参考訳(メタデータ)   (Sun, 28 Sep 2025 17:31:38 GMT)
  • データ分析のためのエージェントに関するサーベイ
  • リポジトリも用意されている GitHub – weAIDB/awesome-data-llm: Official Repository of “LLM × DATA” Survey Paper

WALT: Web Agents that Learn Tools 

  • WALT: Web Agents that Learn Tools [66.7]
    WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。 WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。 VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
    論文  参考訳(メタデータ)   (Wed, 01 Oct 2025 23:41:47 GMT)
  • 「instead of reasoning about how to click and type, agents simply call search(query) or create(listing). This shifts the computational burden from fragile step- by-step reasoning to reliable tool invocation.」というアプローチによるWEBエージェントの構築。
  • この手のエージェントが流行るとWEBサイトのあり方も変わっていくように思う。

LLM-based Agents Suffer from Hallucinations: A Survey of Taxonomy, Methods, and Directions

  • LLM-based Agents Suffer from Hallucinations: A Survey of Taxonomy, Methods, and Directions [80.1]
    LLMをベースとした幻覚の包括的調査を行った。 そこで本研究では,異なる段階において発生するさまざまな種類の幻覚を識別する新しい分類法を提案する。 エージェント幻覚の出現の根底にある18の要因について詳細な検討を行った。
    論文  参考訳(メタデータ)   (Tue, 23 Sep 2025 13:24:48 GMT)
  • 「This paper presents a comprehensive survey of hallucination issues in LLM-based agents, with the goal of consolidating past progress, clarifying current challenges, and outlining future opportunities. We begin by distinguishing agent components into internal states and external behaviors, and, from this perspective, propose a taxonomy of hallucination types occurring at different stages.」とLLM based agentsが苦労している点の整理

RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems 

  • RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems [99.0]
    問題が発生したら、複数の抽象化を提案できるモデルをトレーニングし、続いてソリューション構築のインセンティブを与えるRLを作ります。 この結果、RLトレーニングパラダイムはRLADと呼ばれ、抽象化ジェネレータとソリューションジェネレータを共同で訓練する。 我々は、大規模なテスト予算で多くのソリューションを生成するよりも、より多くのテスト時間計算を抽象化の生成に割り当てることが、パフォーマンスに有益であることを示しています。
    論文  参考訳(メタデータ)   (Thu, 02 Oct 2025 17:44:23 GMT)
  • 「We introduce reasoning abstractions: concise representations of procedural and factual knowledge that are expressed in natural language, as a means to broaden the reasoning strategies used by LLMs」という抽象化モデルとこの処理を通すことでパフォーマンスが上がることを確認。結果も面白いが「We tried training a single model to do both abstraction generation and solution generation, after a lightweight SFT on traces showing questions paired with abstractions and corresponding solutions, but we found this approach to very quickly lose the ability of proposing abstractions over the course of RL training.」というのも興味深い。なんでなんだろう。。。
  • プロジェクトサイトはRLAD

LIMI: Less is More for Agency 

  • LIMI: Less is More for Agency [49.6]
    LIMI(Less Is More for Intelligent Agency)は、機関が根本的に異なる開発原則に従うことを示す。 高度なエージェント・インテリジェンスは、最小でも戦略的にキュレートされた自律行動のデモンストレーションから生まれる可能性がある。 マシンの自律性はデータの豊富さではなく、高品質なエージェント実証の戦略的キュレーションから生まれる。
    論文  参考訳(メタデータ)   (Mon, 22 Sep 2025 10:59:32 GMT)
  • 「These findings establish the Agency Efficiency Principle: machine autonomy emerges not from data abundance but from strategic curation of high-quality agentic demonstrations. This discovery fundamentally reshapes how we develop autonomous AI systems, suggesting that mastering agency requires understanding its essence, not scaling training data.」という主張。「we refer to models fine-tuned with our curated dataset as LIMI (corresponding to fine-tuning GLM-4.5) and LIMI-Air (corresponding to fine-tuning GLM-4.5-Air).」とSFTのようなだが、パラメータの大きなGLM-4.5ベースの方が改善幅も大きく見える。
  • リポジトリはGitHub – GAIR-NLP/LIMI: LIMI: Less is More for Agency

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey 

  • The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.3]
    エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。 本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
    論文  参考訳(メタデータ)   (Tue, 02 Sep 2025 17:46:26 GMT)
  • 「Agentic Reinforcement Learning (Agentic RL) refers to a paradigm in which LLMs, rather than being treated as static conditional generators optimized for single-turn output alignment or benchmark performance, are conceptualized as learnable policies embedded within sequential decision-making loops, where RL endows them with autonomous agentic capabilities, such as planning, reasoning, tool use, memory maintenance, and self-reflection, enabling the emergence of long-horizon cognitive and interactive behaviors in partially observable, dynamic environments.」と定義されるAgenticな強化学習のサーベイ。最近流行りのアプローチだが様々な種類がある。。
  • リポジトリはGitHub – xhyumiracle/Awesome-AgenticLLM-RL-Papers