OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

  • OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution [33.0]
    OmegaUseは、モバイルプラットフォームとデスクトッププラットフォームの両方で自律的なタスク実行のための汎用GUIエージェントモデルである。 既存のGUIベンチマークでは高い競争力があり、ScreenSpot-V2で96.3%のSOTA(State-of-the-art)スコアを達成している。 OS-Navでは74.24%がChiM-Navで、平均55.9%がUbu-Navで成功している。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 08:45:17 GMT)
  • BaiduによるGUIエージェント、「We introduce OmegaUse, a general-purpose GUI agent built on a parameter-efficient MoE architecture for autonomous task execution. OmegaUse is trained using a decoupled two-stage paradigm, and we present a holistic framework for building GUI agents that jointly addresses data construction and model training.」とのことでモデル自体に手を入れていくのはさすが。grounding modelとnavigation modelは分けていて、このあたりの設計は他のエージェントとの共通性を感じる

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です