Agent S2, Devin 2, Amazon Nova Act, An Illusion of Progress? Assessing the Current State of Web Agents 

以前取り上げたAgent Sのバージョン2が出ていた。半年でOS Worldのスコアが20.5から27.0(15Step)に上がっており、ベースモデル(LLM)の性能向上もあるだろうが着実な進化を感じる。Introducing Amazon Nova Act | Amazon AGI LabsCognition | Devin 2.0など発表が相次ぎGUI Agent的なLLM based Agentは流行している。

個人のサイトでもfugumt.comはFugu-MT:AgentでAgent化を行っている(OpenManusを使ったサイトへのエージェント組み込み | ぷるーふおぶこんせぷと)。容易にサイトの機能を拡張できることから、今後このようなサイトが増えてくるのではないかと思う(*1)。

そのような中「An Illusion of Progress? Assessing the Current State of Web Agents 」では「Surprisingly, many recent agents, except for Operator, do not outperform the simple SeeAct agent (Zheng et al , 2024) released in early 2024.」とも指摘されている。同論文にもある通り、正しい評価データセットやフレームワークが求められている。

  • An Illusion of Progress? Assessing the Current State of Web Agents [49.8]
    我々は,Webエージェントの現状を包括的かつ厳密に評価する。 結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。 オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
    論文  参考訳(メタデータ)   (Wed, 02 Apr 2025 05:51:29 GMT)
  • WEBエージェントのためのベンチマーク。「Many recent agents, except for Operator (OpenAI, 2025), underperform the simple SeeAct agent (Zheng et al , 2024) released in early 2024. Even Operator only achieves a success rate of 61%, showing substantial room for improvement.」とのこと。
  • リポジトリはGitHub – OSU-NLP-Group/Online-Mind2Web

(*1) 動きが面白いのでOpenManusをつかって無理やり対応している。今のところ実用性は疑問だが、近いうちにバージョンアップ予定。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です