WALT: Web Agents that Learn Tools 

  • WALT: Web Agents that Learn Tools [66.7]
    WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。 WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。 VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
    論文  参考訳(メタデータ)   (Wed, 01 Oct 2025 23:41:47 GMT)
  • 「instead of reasoning about how to click and type, agents simply call search(query) or create(listing). This shifts the computational burden from fragile step- by-step reasoning to reliable tool invocation.」というアプローチによるWEBエージェントの構築。
  • この手のエージェントが流行るとWEBサイトのあり方も変わっていくように思う。

TimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis

  • TimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis [25.4]
    TimeSeriesScientist(TSci)は時系列予測のための一般的なドメインに依存しないフレームワークである。 これはそれぞれ平均10.4%と38.2%の予測誤差を減少させる。 透明な自然言語の合理性と包括的な報告により、TSciは予測をホワイトボックスシステムに変換する。
    論文  参考訳(メタデータ)   (Thu, 02 Oct 2025 00:18:59 GMT)
  • 「Upon receiving input time series data, the framework executes a structured four-agent workflow. Curator generates analytical reports (Section 3.2), Planner selects model configurations through reasoning and validation (Section 3.3), Forecaster integrates model results to produce the final forecast (Section 3.4), Reporter generates a comprehensive report as the final output of our framework (Section 3.5).」という時系列分析のエージェントフレームワーク
  • プロジェクトサイトはTimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis

D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

  • D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents [22.3]
    D-ArtemisはGUIエージェントのための新しい検討フレームワークである。 D-Artemisは、詳細なアプリ固有のチップ検索メカニズムを使用して、意思決定プロセスに通知する。 また、TACチェックモジュールとACA(Action Correction Agent)が協調して動作し、実行障害のリスクを軽減している。 実行後状態反映エージェント(SRA)は認知ループを完了し、経験から戦略的学習を可能にする。
    論文  参考訳(メタデータ)   (Fri, 26 Sep 2025 02:56:19 GMT)
  • 「(a) The manager agent is guided by two input modalities: textual (task, tips, working memory) and visual (screenshot only). (b) Pre-execution, TAC Check module verifies thought-action consistency. (c) A low consistency score triggers the Action Correction Agent (ACA) to analyze the error type and rectify the action. (d) Post-execution, the Status Reflection Agent (SRA) assesses the action effectiveness and the environmental state to produce guidance for the next step. Upon completion of each step, the working memory is updated.」と非常に凝ったマルチエージェント構成をとるGUI Agent。同一バックボーンを持つアプローチに対して優位性を主張。