GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent
GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.3] MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。 本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。 SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。 論文参考訳(メタデータ) (Thu, 22 May 2025 16:01:06 GMT)
「(a) Automatically constructing function-aware exploration goals by analyzing structural information from the GUI environment, followed by systematic exploration to collect diverse function- aware trajectories. (b) Extracting effective screen-operation logic through unsupervised analysis of structured interaction triples (observation, action, outcome), enabling unsupervised knowledge extraction. (c) Performing visual-semantic retrieval between screen visuals and the knowledge vector store to construct Dynamic Guidance achieves dual objectives: preventing UI misinterpretation and ensuring action proposals align with actual UI states.」というメカニズムの提案。SPA-Bench、AndroidWorldのスコアを改善。