Phi-Ground Tech Report: Advancing Perception in GUI Grounding

  • Phi-Ground Tech Report: Advancing Perception in GUI Grounding [55.4]
    マルチモーダル推論モデルの進展により、コンピュータ使用エージェント(CUA)が実現しつつあります。CUAの成功にはGUIグラウンディングが重要で、現行のモデルの精度は65%未満と低く、実用化には課題があります。本研究では、Phi-Groundモデルを開発し、10B未満のパラメータを持つモデルにおいて全てのベンチマークで最先端の性能を達成し、CUAの実用化に向けた詳細な分析を提供しました。
    論文  参考訳(メタデータ)   (Thu, 31 Jul 2025 17:59:09 GMT)
  • GUIエージェント開発において課題となっているGUI groundingに対するモデル提案。データ構築の方法など非常に参考になる。
  • リポジトリはPhi-Ground Tech Report

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です