GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent

  • GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.3]
    MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。 本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
    論文  参考訳(メタデータ)   (Thu, 22 May 2025 16:01:06 GMT)
  • 「(a) Automatically constructing function-aware exploration goals by analyzing structural information from the GUI environment, followed by systematic exploration to collect diverse function- aware trajectories. (b) Extracting effective screen-operation logic through unsupervised analysis of structured interaction triples (observation, action, outcome), enabling unsupervised knowledge extraction. (c) Performing visual-semantic retrieval between screen visuals and the knowledge vector store to construct Dynamic Guidance achieves dual objectives: preventing UI misinterpretation and ensuring action proposals align with actual UI states.」というメカニズムの提案。SPA-Bench、AndroidWorldのスコアを改善。
  • リポジトリはGitHub – JiuTian-VL/GUI-explorer: [ACL 2025] GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です