PAL-UI: Planning with Active Look-back for Vision-Based GUI Agents

  • PAL-UI: Planning with Active Look-back for Vision-Based GUI Agents [151.9]
    PAL-UI (Planning with Active Look-back) を提案する。 PAL-UIは、二重レベルの要約エージェントを組み合わせ、観察レベルの手がかりとアクションレベルの結果の両方を、専用の検索ツールと組み合わせる。
    論文  参考訳(メタデータ)   (Wed, 01 Oct 2025 01:48:39 GMT)
  • 振り返りに相当するPAL(Planning with Active Look-back)を組み込んだエージェントの提案、「PAL-UI significantly outperforms both base MLLMs and state-of-the-art baselines on mobile navigation benchmarks, while also general- izing well to out-of-domain web environments. These results underscore the importance of active memory retrieval for robust GUI planning. Future work will explore extending PAL-UI to more complex tasks and environments, integrating reinforcement learning objectives, and broadening its applicability to real-world interactive systems.」とのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です