GTA1: GUI Test-time Scaling Agent – arXiv最新論文の紹介

GTA1: GUI Test-time Scaling Agent [77.6]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文参考訳（メタデータ） (Tue, 08 Jul 2025 08:52:18 GMT)
Salesforce researchによるGUIエージェントの提案、OSWorldなどでSoTAを主張
「i) test-time scaling for planning, which introduces a scaling strategy during inference to effectively handle planning ambiguity in complex GUI environments; ii) grounding model training, filtering out training samples with annotation errors to improve supervision quality, and optimizing a grounding model using RL (e g , GRPO) to directly predict coordinates without relying on any intermediate “thinking” (i. e., CoT reasoning) on the derived data.」という工夫を行っている。UI-TARS-1.5-7B, Qwen2.5-VL-32B-Instruct, Qwen2.5-VL-72B-InstructをPost Trainingしているが、やはりこの手のチューニングを行わないと厳しいタスクなのだろうか・・・
リポジトリはGitHub – Yan98/GTA1

コメントを残す

コメントを残す コメントをキャンセル