MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents 

  • MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents [15.0]
    本稿ではGUIショートカットハイブリッドエージェントの評価の先駆けとなるベンチマークであるMAS-Benchを紹介する。 11の現実世界アプリケーションに139の複雑なタスク、88のショートカットの知識ベース、RPAスクリプト、そして7つの評価メトリクスがある。 実験の結果、ハイブリッドエージェントはGUIのみのエージェントよりも成功率と効率が著しく高いことがわかった。
    論文  参考訳(メタデータ)   (Mon, 08 Sep 2025 09:43:48 GMT)
  • GUI操作をショートカットする(画面を操作せずにAPIコールするなど)ことも含めたベンチマークの提案。
  • プロジェクトサイトはMAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents