The Trinity of Consistency as a Defining Principle for General World Models

  • The Trinity of Consistency as a Defining Principle for General World Models [106.2]
    一般世界モデルは、客観的物理法則を学習し、シミュレートし、推論することができる。 本稿では,一般世界モデルに必要な基本的特性を定義するための理論的枠組みを提案する。 我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
    論文  参考訳(メタデータ)   (Thu, 26 Feb 2026 16:15:55 GMT)
  • 「This paper is organized to mirror the evolutionary path from specialized modules to unified world simulators. 」とサーベイ的な論文。「In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine.」と主張、ベンチマークを公開。
  • プロジェクトサイトはThe Trinity of Consistency as a Defining Principle for General World Models

Computer-Using World Model  / WebWorld: A Large-Scale World Model for Web Agent Training 

  • Computer-Using World Model [58.6]
    我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。 テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
    論文  参考訳(メタデータ)   (Thu, 19 Feb 2026 13:48:29 GMT)
  • 「In this paper, we take a first step toward world modeling for computer use by introducing the Computer- Using World Model (CUWM) for real-world desktop software. We instantiate CUWM in the Microsoft Office suite, including Word, Excel, and PowerPoint, which are widely used productivity applications.」という特化型(?)の世界モデル。MSOfficeだと世界モデルにする必要があるのか謎ではあるが、有効な居面はありそう。
  • WebWorld: A Large-Scale World Model for Web Agent Training [59.6]
    大規模にトレーニングされた最初のオープンウェブシミュレータである textbfWebWorld シリーズを紹介する。 WebWorldは1M以上のオープンWebインタラクションをトレーニングし、推論、マルチフォーマットデータ、30以上のステップのロングホライゾンシミュレーションをサポートする。 WebWorld合成トラジェクトリでトレーニングされたQwen3-14Bは,WebArenaで+9.2%向上し,GPT-4oに匹敵する性能を示した。
    論文  参考訳(メタデータ)   (Mon, 16 Feb 2026 13:06:49 GMT)
  • こちらはWEB版で「We introduce WebWorld ( Figure 2), a large-scale open-web world model series (8B, 14B, and 32B) trained on 1M+ real-world trajectories (100× more than prior work) that supports reasoning, long- horizon simulation (30+ turns), and multiple input formats (A11y Tree, HTML, etc.). To ensure general- ization, we build a scalable, hierarchical data pipeline that expands coverage over prior work.」
  • リポジトリはhttps://github.com/QwenLM/WebWorld

World Action Models are Zero-shot Policies 

  • World Action Models are Zero-shot Policies [111.9]
    本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。 ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。 ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。
    論文  参考訳(メタデータ)   (Tue, 17 Feb 2026 15:04:02 GMT)
  • 「By jointly predicting video and action, World Action Models (WAMs) inherit world physics priors that enable 1) effective learning from diverse, non-repetitive data, 2) open-world generalization,3) cross-embodiment learning from video-only data, and 4) few-shot adaptation to new robots.」とのことで、ビデオ合成を活用したもの。ゆえに「 we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz.」と高速改善。
  • プロジェクトサイトはDreamZero: World Action Models are Zero-shot Policies
  • Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution [32.9]
    我々は、高速かつスムーズなリアルタイム実行のために最適化された高度な視覚言語アクション(VLA)モデルであるXiaomi-Robotics-0を紹介する。 Xiaomi-Robotics-0は、大規模なクロス・エボディメント・ロボット軌道と視覚言語データに事前訓練された。 我々はXiaomi-Robotics-0をシミュレーションベンチマークで広範囲に評価し、正確で巧妙なバイマニュアル操作を必要とする2つの挑戦的な実ロボットタスクについて検討した。
    論文  参考訳(メタデータ)   (Fri, 13 Feb 2026 07:30:43 GMT)
  • XiaomiによるVLAモデル。「Our robot trajectory data are sourced from multiple open-sourced robot datasets (e g , DROID [23] and MolmoAct [26]) as well as in-house data collected by ourselves. Our in-house data consists of teleoperated trajectories for two challenging tasks: Lego Disassembly and Towel Folding. In total, we collected 338 and 400 hours of data for these two tasks, respectively.」とこちらはデータを作りにいっている。
  • リポジトリはXiaomi-Robotics-0

Genie 3, Advancing Open-source World Models, WorldBench

動画生成モデル → world modelへの進化は技術的に可能かどうかなど様々な論点があるが先週のGenie 3 — Google DeepMindは大きなニュースだったと思う。同時期のLingBot-Worldなどを含め検証が待たれる。ベンチマークも様々出ているが先週も物理的特性(定数や摩擦などパラメータ)を含めて評価可能なWorldBenhが出ていた。

  • Advancing Open-source World Models [92.2]
    LingBot-World(リンク)は、ビデオ生成から派生したオープンソースのワールドシミュレータである。 広い範囲の環境において、高い忠実度と堅牢なダイナミクスを維持している。 リアルタイムの対話性をサポートし、毎秒16フレームを生成すると1秒未満のレイテンシを実現する。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 12:37:01 GMT)
  • Ant groupによるビデオ生成系world model。「Beyond visual synthesis, LingBot-World serves as a practical testbed for downstreams [1, 6, 20, 26, 29, 57, 58, 78, 92]. It supports promptable world events, allowing users to semantically steer global conditions and local dynamics via textual prompts. Furthermore, it facilitates the training of action agents and enables consistent 3D reconstruction from generated videos [34, 50, 83], validating its geometric integrity.」と言っているのがすごい。公開モデルであるのも特徴的。
  • リポジトリはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models、プロジェクトサイトはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models
  • WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models [17.8]
    We introduced WorldBench, a video-based benchmark designed for concept-specific, disentangled evaluation。 WorldBenchは、ビデオ生成と世界モデルの物理的推論能力を厳格に評価するための、より微妙でスケーラブルなフレームワークを提供する。
    論文  参考訳(メタデータ)   (Thu, 29 Jan 2026 05:31:02 GMT)
  • 「Our benchmark leverages both an intuitive physics and physical parameter estimation subset to provide greater insight into world model performance.」と物理特性(法則や定数等)を含めたベンチマーク。
  • プロジェクトサイトはWorldBench: How Close are World Models to the Physical World?

Aligning Agentic World Models via Knowledgeable Experience Learning

  • Aligning Agentic World Models via Knowledgeable Experience Learning [68.9]
    環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。 WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Mon, 19 Jan 2026 17:33:31 GMT)
  • 「 our World Knowledge Repository accumulates two distinct types of experience. First, Process Experience is derived from prediction errors to enforce physical feasibility, ensuring internal simulations strictly adhere to the immutable laws of reality. Second, Goal Experience is distilled from successful trajectories to serve as procedural heuristics, guiding the simulation to efficiently converge toward the task objective.」と2種類の情報を用いるタイプの手法
  • リポジトリはGitHub – zjunlp/WorldMind: Aligning Agentic World Models via Knowledgeable Experience Learning、プロジェクトサイトはWorldMind: Aligning Agentic World Models

Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models

  • Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models [96.0]
    物理的システムの正確なデジタル表現としてのデジタルツインは、受動的シミュレーションツールからインテリジェントで自律的なエンティティへと進化してきた。 本稿では,デジタルツインライフサイクルにおけるAI統合を特徴付ける4段階統合フレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 04 Jan 2026 01:17:09 GMT)
  • デジタルツインに関する包括的なサーベイ
  • 応用領域だけでも下記が挙げられており、読みごたえがある。
    • Healthcare System
    • Biological System
    • Aerospace
    • Smart City
    • Mobility and Transportation
    • Smart Manufacturing
    • Robotics
    • Natural System and Environment
    • Agriculture
    • Commerce
    • Education and Training
    • Quantum Computing for Digital Twin

Current Agents Fail to Leverage World Model as Tool for Foresight

  • Current Agents Fail to Leverage World Model as Tool for Foresight [86.9]
    エージェントは、行動する前に結果を予測するためにそれらを使用できます。 本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 13:15:23 GMT)
  • 「Our investigation reveals that giving agents access to a world model reshapes their behavior in unexpected ways. Rather than serving as a straightforward enhancement, simulation introduces new cognitive pressures: agents must manage hypothetical branches and maintain coherent reasoning across mixed real and imagined experience. The difficulties we observe, including hesitation, over-analysis, and misaligned interpretation, suggest that effective foresight requires more fine-grained governance.」と、world model的なツールがあったとしても現在のAIはそれを使いこなせていないという指摘。
  • 現段階ではworld model的能力が考慮された設計になっていない、ということなんだろうか。

Yume-1.5: A Text-Controlled Interactive World Generation Model 

  • Yume-1.5: A Text-Controlled Interactive World Generation Model [78.9]
    Methodは、単一の画像やテキストプロンプトから現実的でインタラクティブで連続的な世界を生成するように設計された新しいフレームワークである。 メソッドは、キーボードベースの生成世界を探索するフレームワークを慎重に設計し、これを実現している。
    論文  参考訳(メタデータ)   (Fri, 26 Dec 2025 17:52:49 GMT)
  • 「we present Yume1.5, an interactive world generation model that enables infinite video generation from a single input image through autoregressive synthesis while supporting intuitive keyboard-based camera control.」、「The key innovations of Yume1.5 include: (1) a joint temporal-spatial-channel modeling approach that enables efficient long video generation while maintaining temporal coherence; (2) an acceleration method that mitigates error accumulation during inference; and (3) text-controlled world event generation capability achieved through careful architectural design and mixed-dataset training.」とのこと。動画生成系、world modelにつながる研究。夢、世界(GitHub – Lixsp11/sekai-codebase: [NeurIPS 2025] The official repository of “Sekai: A Video Dataset towards World Exploration”)とネーミングも面白い。
  • リポジトリはGitHub – stdstu12/YUME: The official code of Yume、モデルはstdstu123/Yume-5B-720P · Hugging Face

From Word to World: Can Large Language Models be Implicit Text-based World Models?

  • From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.5]
    エージェント強化学習は、経験駆動のスケーリングにますます依存している。 世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。 大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
    論文  参考訳(メタデータ)   (Sun, 21 Dec 2025 17:28:42 GMT)
  • 「LLMs can function as reliable world models: they exhibit internal latent dynamics that support in-context world modeling, and supervised fine-tuning substantially improves short-term predictive fidelity and enables consistent long-horizon rollouts in well-structured domains.」との指摘が興味深い。
  • リポジトリはGitHub – X1AOX1A/Word2World: From Word to World: Can Large Language Models be Implicit Text-based World Models?

LongVie 2: Multimodal Controllable Ultra-Long Video World Model 

  • LongVie 2: Multimodal Controllable Ultra-Long Video World Model [94.9]
    LongVie 2はエンドツーエンドの自動回帰フレームワークで、3段階でトレーニングされている。 LongVie 2は、長距離制御性、時間的コヒーレンス、視覚的忠実さにおいて最先端の性能を達成する。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 17:59:58 GMT)
  • 「LongVie 2 achieves state-of-the-art performance in controllable long video generation and can autoregressively synthesize high-quality videos lasting up to 3–5 minutes, marking a significant step toward video world modeling.」とのこと
  • プロジェクトサイトはLongVie 2