- Phi-Ground Tech Report: Advancing Perception in GUI Grounding [55.4]
マルチモーダル推論モデルの進展により、コンピュータ使用エージェント(CUA)が実現しつつあります。CUAの成功にはGUIグラウンディングが重要で、現行のモデルの精度は65%未満と低く、実用化には課題があります。本研究では、Phi-Groundモデルを開発し、10B未満のパラメータを持つモデルにおいて全てのベンチマークで最先端の性能を達成し、CUAの実用化に向けた詳細な分析を提供しました。
論文 参考訳(メタデータ) (Thu, 31 Jul 2025 17:59:09 GMT) - GUIエージェント開発において課題となっているGUI groundingに対するモデル提案。データ構築の方法など非常に参考になる。
- リポジトリはPhi-Ground Tech Report