Genie 3, Advancing Open-source World Models, WorldBench

動画生成モデル → world modelへの進化は技術的に可能かどうかなど様々な論点があるが先週のGenie 3 — Google DeepMindは大きなニュースだったと思う。同時期のLingBot-Worldなどを含め検証が待たれる。ベンチマークも様々出ているが先週も物理的特性(定数や摩擦などパラメータ)を含めて評価可能なWorldBenhが出ていた。

  • Advancing Open-source World Models [92.2]
    LingBot-World(リンク)は、ビデオ生成から派生したオープンソースのワールドシミュレータである。 広い範囲の環境において、高い忠実度と堅牢なダイナミクスを維持している。 リアルタイムの対話性をサポートし、毎秒16フレームを生成すると1秒未満のレイテンシを実現する。
    論文  参考訳(メタデータ)   (Wed, 28 Jan 2026 12:37:01 GMT)
  • Ant groupによるビデオ生成系world model。「Beyond visual synthesis, LingBot-World serves as a practical testbed for downstreams [1, 6, 20, 26, 29, 57, 58, 78, 92]. It supports promptable world events, allowing users to semantically steer global conditions and local dynamics via textual prompts. Furthermore, it facilitates the training of action agents and enables consistent 3D reconstruction from generated videos [34, 50, 83], validating its geometric integrity.」と言っているのがすごい。公開モデルであるのも特徴的。
  • リポジトリはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models、プロジェクトサイトはGitHub – Robbyant/lingbot-world: Advancing Open-source World Models
  • WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models [17.8]
    We introduced WorldBench, a video-based benchmark designed for concept-specific, disentangled evaluation。 WorldBenchは、ビデオ生成と世界モデルの物理的推論能力を厳格に評価するための、より微妙でスケーラブルなフレームワークを提供する。
    論文  参考訳(メタデータ)   (Thu, 29 Jan 2026 05:31:02 GMT)
  • 「Our benchmark leverages both an intuitive physics and physical parameter estimation subset to provide greater insight into world model performance.」と物理特性(法則や定数等)を含めたベンチマーク。
  • プロジェクトサイトはWorldBench: How Close are World Models to the Physical World?

Aligning Agentic World Models via Knowledgeable Experience Learning

  • Aligning Agentic World Models via Knowledgeable Experience Learning [68.9]
    環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。 WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Mon, 19 Jan 2026 17:33:31 GMT)
  • 「 our World Knowledge Repository accumulates two distinct types of experience. First, Process Experience is derived from prediction errors to enforce physical feasibility, ensuring internal simulations strictly adhere to the immutable laws of reality. Second, Goal Experience is distilled from successful trajectories to serve as procedural heuristics, guiding the simulation to efficiently converge toward the task objective.」と2種類の情報を用いるタイプの手法
  • リポジトリはGitHub – zjunlp/WorldMind: Aligning Agentic World Models via Knowledgeable Experience Learning、プロジェクトサイトはWorldMind: Aligning Agentic World Models

Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models

  • Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models [96.0]
    物理的システムの正確なデジタル表現としてのデジタルツインは、受動的シミュレーションツールからインテリジェントで自律的なエンティティへと進化してきた。 本稿では,デジタルツインライフサイクルにおけるAI統合を特徴付ける4段階統合フレームワークを提案する。
    論文  参考訳(メタデータ)   (Sun, 04 Jan 2026 01:17:09 GMT)
  • デジタルツインに関する包括的なサーベイ
  • 応用領域だけでも下記が挙げられており、読みごたえがある。
    • Healthcare System
    • Biological System
    • Aerospace
    • Smart City
    • Mobility and Transportation
    • Smart Manufacturing
    • Robotics
    • Natural System and Environment
    • Agriculture
    • Commerce
    • Education and Training
    • Quantum Computing for Digital Twin

Current Agents Fail to Leverage World Model as Tool for Foresight

  • Current Agents Fail to Leverage World Model as Tool for Foresight [86.9]
    エージェントは、行動する前に結果を予測するためにそれらを使用できます。 本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
    論文  参考訳(メタデータ)   (Wed, 07 Jan 2026 13:15:23 GMT)
  • 「Our investigation reveals that giving agents access to a world model reshapes their behavior in unexpected ways. Rather than serving as a straightforward enhancement, simulation introduces new cognitive pressures: agents must manage hypothetical branches and maintain coherent reasoning across mixed real and imagined experience. The difficulties we observe, including hesitation, over-analysis, and misaligned interpretation, suggest that effective foresight requires more fine-grained governance.」と、world model的なツールがあったとしても現在のAIはそれを使いこなせていないという指摘。
  • 現段階ではworld model的能力が考慮された設計になっていない、ということなんだろうか。

Yume-1.5: A Text-Controlled Interactive World Generation Model 

  • Yume-1.5: A Text-Controlled Interactive World Generation Model [78.9]
    Methodは、単一の画像やテキストプロンプトから現実的でインタラクティブで連続的な世界を生成するように設計された新しいフレームワークである。 メソッドは、キーボードベースの生成世界を探索するフレームワークを慎重に設計し、これを実現している。
    論文  参考訳(メタデータ)   (Fri, 26 Dec 2025 17:52:49 GMT)
  • 「we present Yume1.5, an interactive world generation model that enables infinite video generation from a single input image through autoregressive synthesis while supporting intuitive keyboard-based camera control.」、「The key innovations of Yume1.5 include: (1) a joint temporal-spatial-channel modeling approach that enables efficient long video generation while maintaining temporal coherence; (2) an acceleration method that mitigates error accumulation during inference; and (3) text-controlled world event generation capability achieved through careful architectural design and mixed-dataset training.」とのこと。動画生成系、world modelにつながる研究。夢、世界(GitHub – Lixsp11/sekai-codebase: [NeurIPS 2025] The official repository of “Sekai: A Video Dataset towards World Exploration”)とネーミングも面白い。
  • リポジトリはGitHub – stdstu12/YUME: The official code of Yume、モデルはstdstu123/Yume-5B-720P · Hugging Face

From Word to World: Can Large Language Models be Implicit Text-based World Models?

  • From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.5]
    エージェント強化学習は、経験駆動のスケーリングにますます依存している。 世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。 大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
    論文  参考訳(メタデータ)   (Sun, 21 Dec 2025 17:28:42 GMT)
  • 「LLMs can function as reliable world models: they exhibit internal latent dynamics that support in-context world modeling, and supervised fine-tuning substantially improves short-term predictive fidelity and enables consistent long-horizon rollouts in well-structured domains.」との指摘が興味深い。
  • リポジトリはGitHub – X1AOX1A/Word2World: From Word to World: Can Large Language Models be Implicit Text-based World Models?

LongVie 2: Multimodal Controllable Ultra-Long Video World Model 

  • LongVie 2: Multimodal Controllable Ultra-Long Video World Model [94.9]
    LongVie 2はエンドツーエンドの自動回帰フレームワークで、3段階でトレーニングされている。 LongVie 2は、長距離制御性、時間的コヒーレンス、視覚的忠実さにおいて最先端の性能を達成する。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 17:59:58 GMT)
  • 「LongVie 2 achieves state-of-the-art performance in controllable long video generation and can autoregressively synthesize high-quality videos lasting up to 3–5 minutes, marking a significant step toward video world modeling.」とのこと
  • プロジェクトサイトはLongVie 2

The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text 

  • The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text [101.7]
    Worldcanvasは、リッチでユーザ指向のシミュレーションを可能にする、プロンプト可能なワールドイベントのためのフレームワークである。 表現力のある世界イベント生成をサポートすることで、Worldcanvasは、受動的予測器からインタラクティブなユーザ形状のシミュレータまで、世界モデルを前進させる。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 18:59:59 GMT)
  • 「World models [3, 12, 15, 22, 38, 46] are unlocking their true potential, evolving from passive simulators into interactive canvases for creation. A landmark step in this evolution is the introduction of “promptable world events,” a concept pioneered by models like Genie 3 [3], which transforms the world model into an interactive canvas where text prompts can trigger significant environmental changes.」という前提のもと、「By enabling users to precisely specify what, when, where, and who through intuitive motion trajectories, natural language and ref images, our approach supports semantic actions, complex interactions, object entry/exit and reference- guided appearance.」が可能なモデルを構築。
  • プロジェクトサイトはThe World is Your Canvas

Large Video Planner Enables Generalizable Robot Control 

  • Large Video Planner Enables Generalizable Robot Control [117.5]
    汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。 最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。 本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 18:35:54 GMT)
  • 「We present Large Video Planner (LVP), a 14-billion parameter video foundation model for embodiment planning. LVP generates videos as motion plans conditioned on one or a few scene frames and a text description of the task. We demonstrate that these generated motion plans can be successfully retargeted to dexterous robotic hands using open-source reconstruction and retargeting tools. Evaluations on third-party proposed tasks show evidence of task-level generalization, a capability limited in existing VLA models.」と動画をカギとするロボット用の行動計画モデルの提案。
  • 関連手法の進化を見るに、有力なアプローチに思えなくもない。

WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World 

  • WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.7]
    エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。 モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。 さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 18:59:58 GMT)
  • 「We introduce WorldLens, a full-spectrum benchmark evaluating how well a model builds, understands, and behaves within its generated world. It spans five aspects – Generation, Reconstruction, Action-Following, Downstream Task, and Human Preference – jointly covering visual realism, geometric consistency, physical plausibility, and functional reliability.」というベンチマーク。
  • リポジトリはGitHub – worldbench/WorldLens: 🌐 WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World、プロジェクトサイトはWorldLens: Full-Spectrum Evaluations of Driving World Models in Real World