- WebArena: A Realistic Web Environment for Building Autonomous Agents [83.3]
エージェントコマンドと制御のための環境を構築し、非常に現実的で再現性が高い。 我々は,Webサイト上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを備えた環境を構築する。 タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (Tue, 25 Jul 2023 22:59:32 GMT) - Web上でタスクを実行するエージェント用の検証環境とベンチマークの提案。GPT-4を用いてもsuccess rateは10.59と低い。リアル(そもそも達成不可能なタスクも含まれる)で難しいタスクを扱うベンチマークとして有用そう。
- プロジェクトサイトはWebArena: A Realistic Web Environment for Building Autonomous Agents