以前取り上げたAgent Sのバージョン2が出ていた。半年でOS Worldのスコアが20.5から27.0(15Step)に上がっており、ベースモデル(LLM)の性能向上もあるだろうが着実な進化を感じる。Introducing Amazon Nova Act | Amazon AGI Labs、Cognition | Devin 2.0など発表が相次ぎGUI Agent的なLLM based Agentは流行している。
個人のサイトでもfugumt.comはFugu-MT:AgentでAgent化を行っている(OpenManusを使ったサイトへのエージェント組み込み | ぷるーふおぶこんせぷと)。容易にサイトの機能を拡張できることから、今後このようなサイトが増えてくるのではないかと思う(*1)。
そのような中「An Illusion of Progress? Assessing the Current State of Web Agents 」では「Surprisingly, many recent agents, except for Operator, do not outperform the simple SeeAct agent (Zheng et al , 2024) released in early 2024.」とも指摘されている。同論文にもある通り、正しい評価データセットやフレームワークが求められている。
- Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.3]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。 本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。 Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (Tue, 01 Apr 2025 15:40:27 GMT) - Agent S: An Open Agentic Framework that Uses Computers Like a Human – arXiv最新論文の紹介のバージョン2、全般的に性能が上がり様々なベンチマークでSoTAを主張。
- リポジトリはGitHub – simular-ai/Agent-S: Agent S: an open agentic framework that uses computers like a human
- An Illusion of Progress? Assessing the Current State of Web Agents [49.8]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。 結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。 オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文 参考訳(メタデータ) (Wed, 02 Apr 2025 05:51:29 GMT) - WEBエージェントのためのベンチマーク。「Many recent agents, except for Operator (OpenAI, 2025), underperform the simple SeeAct agent (Zheng et al , 2024) released in early 2024. Even Operator only achieves a success rate of 61%, showing substantial room for improvement.」とのこと。
- リポジトリはGitHub – OSU-NLP-Group/Online-Mind2Web
(*1) 動きが面白いのでOpenManusをつかって無理やり対応している。今のところ実用性は疑問だが、近いうちにバージョンアップ予定。