AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

  • AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines [43.3]
    AutoWebWorldは、制御可能で検証可能なWeb環境を合成するためのフレームワークである。 状態遷移が暗黙的な実際のWebサイトとは異なり、AutoWebWorldは、すべての状態、アクション、遷移ルールを明示的に定義している。 29の多様なWeb環境から11,663以上の認証トラジェクトリを生成し、1トラジェクトリあたり0.04ドルである。
    論文  参考訳(メタデータ)   (Sun, 15 Feb 2026 20:03:19 GMT)
  • 「Step 1 is to generate an FSM based on a multi-agent architecture. Step 2 uses coding agents to translate the output FSM into Synthesized Web. Step 3 uses BFS to explore the FSM graph and get all the potential trajectories. Step 4 filters these BFS-generated candidates by replaying each trajectory in the synthesized website with Playwright and retaining only those that execute all steps successfully and reach the intended goal state.」というパイプラインでのWEB環境生成・軌道合成フレームワーク。サイトのコピーにも使えるのではないかと思わなくもない・・・
  • プロジェクトサイトはAutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Computer-Using World Model  / WebWorld: A Large-Scale World Model for Web Agent Training 

  • Computer-Using World Model [58.6]
    我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。 テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
    論文  参考訳(メタデータ)   (Thu, 19 Feb 2026 13:48:29 GMT)
  • 「In this paper, we take a first step toward world modeling for computer use by introducing the Computer- Using World Model (CUWM) for real-world desktop software. We instantiate CUWM in the Microsoft Office suite, including Word, Excel, and PowerPoint, which are widely used productivity applications.」という特化型(?)の世界モデル。MSOfficeだと世界モデルにする必要があるのか謎ではあるが、有効な居面はありそう。
  • WebWorld: A Large-Scale World Model for Web Agent Training [59.6]
    大規模にトレーニングされた最初のオープンウェブシミュレータである textbfWebWorld シリーズを紹介する。 WebWorldは1M以上のオープンWebインタラクションをトレーニングし、推論、マルチフォーマットデータ、30以上のステップのロングホライゾンシミュレーションをサポートする。 WebWorld合成トラジェクトリでトレーニングされたQwen3-14Bは,WebArenaで+9.2%向上し,GPT-4oに匹敵する性能を示した。
    論文  参考訳(メタデータ)   (Mon, 16 Feb 2026 13:06:49 GMT)
  • こちらはWEB版で「We introduce WebWorld ( Figure 2), a large-scale open-web world model series (8B, 14B, and 32B) trained on 1M+ real-world trajectories (100× more than prior work) that supports reasoning, long- horizon simulation (30+ turns), and multiple input formats (A11y Tree, HTML, etc.). To ensure general- ization, we build a scalable, hierarchical data pipeline that expands coverage over prior work.」
  • リポジトリはhttps://github.com/QwenLM/WebWorld

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents 

  • Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents [56.7]
    この記事では、最新のネイティブGUIエージェントモデルであるGUI-Owl-1.5を紹介する。 クラウドとエッジのコラボレーションとリアルタイムのインタラクションを実現するために、さまざまなプラットフォーム(デスクトップ、モバイル、ブラウザなど)をサポートしている。 オープンソースモデル上で20以上のGUIベンチマークで最先端の結果を得る。
    論文  参考訳(メタデータ)   (Sun, 15 Feb 2026 01:52:19 GMT)
  • AlibabaによるGUIエージェントモデル。「Built on Qwen3-VL and powered by a scalable data pipeline and a multi-stage training paradigm, GUI-Owl1.5 comprises a family of foundation GUI models covering a full range of sizes, including instruct/thinking variants at 2B, 4B, 8B, 32B, and 235B-A22B.」とのこと。
  • リポジトリはGitHub – X-PLUG/MobileAgent: Mobile-Agent: The Powerful GUI Agent Family

CUA-Skill: Develop Skills for Computer Using Agent

  • CUA-Skill: Develop Skills for Computer Using Agent [48.9]
    コンピュータを利用したエージェントスキルベースであるCUA-Skillを導入し,人間のコンピュータ利用知識をスキルとして符号化する。 我々は、動的スキル検索、引数のインスタンス化、メモリ認識障害回復をサポートする、エンドツーエンドのコンピュータ利用エージェントであるCUA-Skill Agentを構築した。 その結果、CUA-Skillは、エンドツーエンドのベンチマークで実行の成功率と堅牢性を大幅に向上することを示した。
    論文  参考訳(メタデータ)   (Mon, 02 Feb 2026 23:11:55 GMT)
  • 「How can we build a scalable and transferable skill base for desktop environments that captures human procedural knowledge and enables reliable and capable CUAs? In this work, we answer this question by introducing CUA- Skill, the first systematic agentic skill library designed for desktop computer use.」とSkillsを用いたCUA、かなり有効に見える。
  • リポジトリはCUA-Skill

POINTS-GUI-G: GUI-Grounding Journey 

  • POINTS-GUI-G: GUI-Grounding Journey [22.4]
    POINTS-GUIG-8Bは、ScreenSpotProで59.9、OSWorld-Gで66.0、ScreenSpot-v2で95.7、UIVisionで49.9のスコアで最先端のパフォーマンスを実現する。 モデルの成功は,(1)データ工学の精錬,(2)訓練戦略の改善,(3)検証されたリワードによる強化学習の3つの要因によって引き起こされる。
    論文  参考訳(メタデータ)   (Fri, 06 Feb 2026 05:14:11 GMT)
  • GUI groundingで良い性能を出す小型モデルの提案。「(1) Refined Data Engineering, involving the unification of diverse open-source datasets format alongside sophisticated strategies for augmentation, filtering, and difficulty grading; (2) Improved Training Strategies, including continuous fine-tuning of the vision encoder to enhance perceptual accuracy and maintaining resolution consistency between training and inference; and (3) Reinforcement Learning (RL) with Verifiable Rewards.」と構築過程も参考になる。
  • リポジトリはGitHub – Tencent/POINTS-GUI

UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents

  • UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents [50.1]
    オンライン強化学習(RL)は、直接的な環境相互作用を通じてGUIエージェントを強化するための有望なパラダイムを提供する。 階層的エクスペリエンスメモリによるGUIオンラインRLを強化する新しいフレームワークであるUI-Memを提案する。 UI-Memは従来のRLベースラインや静的再利用戦略よりも大幅に優れています。
    論文  参考訳(メタデータ)   (Thu, 05 Feb 2026 16:21:43 GMT)
  • 「constructs a hierarchical, self-evolving memory that decom- poses raw experiences into reusable workflows, subtask skills, and failure patterns. We utilized this memory through a stratified group sampling mechanism tailored for GRPO, which balances memory-guided exploitation with necessary exploration to facilitate effective advantage estimation.」とGUIエージェントのためのメモリ機能提案。
  • リポジトリはUI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents

UI-Venus-1.5 Technical Report

OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks

  • OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks [37.0]
    ロングホライズンで反復的なタスクは、プロフェッショナルな設定で一般的である。 これらのタスクは、処理するデータのサイズに比例して極端な長さまで拡張できるため、人間にとって退屈な作業であることが多い。 我々は2つのドメインにまたがる242の長期的反復的なタスクからなるOS-Marathonを構築し、SOTA(State-of-the-art)エージェントを評価する。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 14:35:23 GMT)
  • 「OS-Marathon is specifically tailored to evaluate CUA performance in long- horizon, repetitive execution scenarios, comprising 242 tasks across 2 domains and 7 distinct execution environments. 」と長期かつ反復的なタスクがあるGUIエージェントベンチマーク。かなり難しいベンチマークに見える。
  • プロジェクトサイトはOS-Marathon Benchmark

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

  • OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution [33.0]
    OmegaUseは、モバイルプラットフォームとデスクトッププラットフォームの両方で自律的なタスク実行のための汎用GUIエージェントモデルである。 既存のGUIベンチマークでは高い競争力があり、ScreenSpot-V2で96.3%のSOTA(State-of-the-art)スコアを達成している。 OS-Navでは74.24%がChiM-Navで、平均55.9%がUbu-Navで成功している。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 08:45:17 GMT)
  • BaiduによるGUIエージェント、「We introduce OmegaUse, a general-purpose GUI agent built on a parameter-efficient MoE architecture for autonomous task execution. OmegaUse is trained using a decoupled two-stage paradigm, and we present a holistic framework for building GUI agents that jointly addresses data construction and model training.」とのことでモデル自体に手を入れていくのはさすが。grounding modelとnavigation modelは分けていて、このあたりの設計は他のエージェントとの共通性を感じる

Continual GUI Agents 

  • Continual GUI Agents [47.9]
    これはGUIエージェントがシフトしたドメインと解像度の下で連続的な学習を行うのに必要な新しいタスクである。 既存のメソッドは、UIインタラクションポイントとフラックスシナリオのリージョンの多様性のため、GUIディストリビューションが時間とともに変化するため、安定した基盤を維持することができません。 本稿では2つの新しい報酬を通じて連続的な学習を安定化する新しい強化微調整フレームワークであるGUI-AiF(GUI-AiF)について紹介する。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 16:06:31 GMT)
  • 流動的なGUIという問題意識のもと、「To address this, we introduce GUI-Anchoring in Flux (GUI-AiF), a new reinforcement fine-tuning framework that stabilizes continual learning through two novel rewards: Anchoring Point Reward in Flux (APR-iF) and Anchoring Region Re- ward in Flux (ARR-iF).」を提案。