OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models
OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.4] クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。 結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。 論文参考訳(メタデータ) (Thu, 18 Dec 2025 08:29:50 GMT)
「we present OS-Oracle, a comprehensive framework for GUI critic models. By introducing a scalable cross-platform data pipeline, we systematically synthesize both positive and negative samples that capture di- verse GUI failure modes. Together with a two-stage training recipe combining supervised fine-tuning and consistency- preserving GRPO, our approach enables robust and generalizable critic learning across Mobile, Web, and Desktop environments. Extensive experiments demonstrate that our critic model not only achieves impressive performance on the OS-Critic Bench but also effectively enhances the reliability and task success of native GUI agents.」とのこと。GUI Agentが盛り上がる中重要なデータセット、モデル、ベンチマークだと思う。