- MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents [15.0]
本稿ではGUIショートカットハイブリッドエージェントの評価の先駆けとなるベンチマークであるMAS-Benchを紹介する。 11の現実世界アプリケーションに139の複雑なタスク、88のショートカットの知識ベース、RPAスクリプト、そして7つの評価メトリクスがある。 実験の結果、ハイブリッドエージェントはGUIのみのエージェントよりも成功率と効率が著しく高いことがわかった。
論文 参考訳(メタデータ) (Mon, 08 Sep 2025 09:43:48 GMT) - GUI操作をショートカットする(画面を操作せずにAPIコールするなど)ことも含めたベンチマークの提案。
- プロジェクトサイトはMAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents