OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution
OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution [33.0] OmegaUseは、モバイルプラットフォームとデスクトッププラットフォームの両方で自律的なタスク実行のための汎用GUIエージェントモデルである。 既存のGUIベンチマークでは高い競争力があり、ScreenSpot-V2で96.3%のSOTA(State-of-the-art)スコアを達成している。 OS-Navでは74.24%がChiM-Navで、平均55.9%がUbu-Navで成功している。 論文参考訳(メタデータ) (Wed, 28 Jan 2026 08:45:17 GMT)
BaiduによるGUIエージェント、「We introduce OmegaUse, a general-purpose GUI agent built on a parameter-efficient MoE architecture for autonomous task execution. OmegaUse is trained using a decoupled two-stage paradigm, and we present a holistic framework for building GUI agents that jointly addresses data construction and model training.」とのことでモデル自体に手を入れていくのはさすが。grounding modelとnavigation modelは分けていて、このあたりの設計は他のエージェントとの共通性を感じる