Computer-Using World Model  / WebWorld: A Large-Scale World Model for Web Agent Training 

  • Computer-Using World Model [58.6]
    我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。 テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
    論文  参考訳(メタデータ)   (Thu, 19 Feb 2026 13:48:29 GMT)
  • 「In this paper, we take a first step toward world modeling for computer use by introducing the Computer- Using World Model (CUWM) for real-world desktop software. We instantiate CUWM in the Microsoft Office suite, including Word, Excel, and PowerPoint, which are widely used productivity applications.」という特化型(?)の世界モデル。MSOfficeだと世界モデルにする必要があるのか謎ではあるが、有効な居面はありそう。
  • WebWorld: A Large-Scale World Model for Web Agent Training [59.6]
    大規模にトレーニングされた最初のオープンウェブシミュレータである textbfWebWorld シリーズを紹介する。 WebWorldは1M以上のオープンWebインタラクションをトレーニングし、推論、マルチフォーマットデータ、30以上のステップのロングホライゾンシミュレーションをサポートする。 WebWorld合成トラジェクトリでトレーニングされたQwen3-14Bは,WebArenaで+9.2%向上し,GPT-4oに匹敵する性能を示した。
    論文  参考訳(メタデータ)   (Mon, 16 Feb 2026 13:06:49 GMT)
  • こちらはWEB版で「We introduce WebWorld ( Figure 2), a large-scale open-web world model series (8B, 14B, and 32B) trained on 1M+ real-world trajectories (100× more than prior work) that supports reasoning, long- horizon simulation (30+ turns), and multiple input formats (A11y Tree, HTML, etc.). To ensure general- ization, we build a scalable, hierarchical data pipeline that expands coverage over prior work.」
  • リポジトリはhttps://github.com/QwenLM/WebWorld

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です