OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

  • OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.4]
    OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。 現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:10:19 GMT)
  • GUIを対象としたFoundation Action Modelの提案、Anthropicの発表もあって盛り上がっている領域。性能は「although GPT-4o with OS-Atlas-Base as the grounding module still lags behind human performance, it significantly outperforms other grounding methods such as SeeClick and Set-of-Mark (SoM)」とのこと。
  • リポジトリはOS-Atlas Homepage

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です