- The BrowserGym Ecosystem for Web Agent Research [151.9]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。 大規模なマルチベンチマークWebエージェント実験を初めて実施する。 結果は、OpenAIとAnthropicの最新モデルの大きな相違点を浮き彫りにしている。
論文 参考訳(メタデータ) (Fri, 06 Dec 2024 23:43:59 GMT) - WEBエージェント開発のためのベンチマーク環境、あわせてベンチマークの統合とAgentLabも公開している。現在のリーダーボード(BrowserGym Leaderboard – a Hugging Face Space by ServiceNow)によると、Claude 3.5 Sonnetの性能の高さが目立っている。
- リポジトリはGitHub – ServiceNow/BrowserGym: 🌎💪 BrowserGym, a Gym environment for web task automation、GitHub – ServiceNow/AgentLab: AgentLab: An open-source framework for developing, testing, and benchmarking web agents on diverse tasks, designed for scalability and reproducibility.