Yume-1.5: A Text-Controlled Interactive World Generation Model 

  • Yume-1.5: A Text-Controlled Interactive World Generation Model [78.9]
    Methodは、単一の画像やテキストプロンプトから現実的でインタラクティブで連続的な世界を生成するように設計された新しいフレームワークである。 メソッドは、キーボードベースの生成世界を探索するフレームワークを慎重に設計し、これを実現している。
    論文  参考訳(メタデータ)   (Fri, 26 Dec 2025 17:52:49 GMT)
  • 「we present Yume1.5, an interactive world generation model that enables infinite video generation from a single input image through autoregressive synthesis while supporting intuitive keyboard-based camera control.」、「The key innovations of Yume1.5 include: (1) a joint temporal-spatial-channel modeling approach that enables efficient long video generation while maintaining temporal coherence; (2) an acceleration method that mitigates error accumulation during inference; and (3) text-controlled world event generation capability achieved through careful architectural design and mixed-dataset training.」とのこと。動画生成系、world modelにつながる研究。夢、世界(GitHub – Lixsp11/sekai-codebase: [NeurIPS 2025] The official repository of “Sekai: A Video Dataset towards World Exploration”)とネーミングも面白い。
  • リポジトリはGitHub – stdstu12/YUME: The official code of Yume、モデルはstdstu123/Yume-5B-720P · Hugging Face

From Word to World: Can Large Language Models be Implicit Text-based World Models?

  • From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.5]
    エージェント強化学習は、経験駆動のスケーリングにますます依存している。 世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。 大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
    論文  参考訳(メタデータ)   (Sun, 21 Dec 2025 17:28:42 GMT)
  • 「LLMs can function as reliable world models: they exhibit internal latent dynamics that support in-context world modeling, and supervised fine-tuning substantially improves short-term predictive fidelity and enables consistent long-horizon rollouts in well-structured domains.」との指摘が興味深い。
  • リポジトリはGitHub – X1AOX1A/Word2World: From Word to World: Can Large Language Models be Implicit Text-based World Models?

LongVie 2: Multimodal Controllable Ultra-Long Video World Model 

  • LongVie 2: Multimodal Controllable Ultra-Long Video World Model [94.9]
    LongVie 2はエンドツーエンドの自動回帰フレームワークで、3段階でトレーニングされている。 LongVie 2は、長距離制御性、時間的コヒーレンス、視覚的忠実さにおいて最先端の性能を達成する。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 17:59:58 GMT)
  • 「LongVie 2 achieves state-of-the-art performance in controllable long video generation and can autoregressively synthesize high-quality videos lasting up to 3–5 minutes, marking a significant step toward video world modeling.」とのこと
  • プロジェクトサイトはLongVie 2

The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text 

  • The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text [101.7]
    Worldcanvasは、リッチでユーザ指向のシミュレーションを可能にする、プロンプト可能なワールドイベントのためのフレームワークである。 表現力のある世界イベント生成をサポートすることで、Worldcanvasは、受動的予測器からインタラクティブなユーザ形状のシミュレータまで、世界モデルを前進させる。
    論文  参考訳(メタデータ)   (Thu, 18 Dec 2025 18:59:59 GMT)
  • 「World models [3, 12, 15, 22, 38, 46] are unlocking their true potential, evolving from passive simulators into interactive canvases for creation. A landmark step in this evolution is the introduction of “promptable world events,” a concept pioneered by models like Genie 3 [3], which transforms the world model into an interactive canvas where text prompts can trigger significant environmental changes.」という前提のもと、「By enabling users to precisely specify what, when, where, and who through intuitive motion trajectories, natural language and ref images, our approach supports semantic actions, complex interactions, object entry/exit and reference- guided appearance.」が可能なモデルを構築。
  • プロジェクトサイトはThe World is Your Canvas

Large Video Planner Enables Generalizable Robot Control 

  • Large Video Planner Enables Generalizable Robot Control [117.5]
    汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。 最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。 本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 18:35:54 GMT)
  • 「We present Large Video Planner (LVP), a 14-billion parameter video foundation model for embodiment planning. LVP generates videos as motion plans conditioned on one or a few scene frames and a text description of the task. We demonstrate that these generated motion plans can be successfully retargeted to dexterous robotic hands using open-source reconstruction and retargeting tools. Evaluations on third-party proposed tasks show evidence of task-level generalization, a capability limited in existing VLA models.」と動画をカギとするロボット用の行動計画モデルの提案。
  • 関連手法の進化を見るに、有力なアプローチに思えなくもない。

WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World 

  • WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.7]
    エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。 モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。 さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 18:59:58 GMT)
  • 「We introduce WorldLens, a full-spectrum benchmark evaluating how well a model builds, understands, and behaves within its generated world. It spans five aspects – Generation, Reconstruction, Action-Following, Downstream Task, and Human Preference – jointly covering visual realism, geometric consistency, physical plausibility, and functional reliability.」というベンチマーク。
  • リポジトリはGitHub – worldbench/WorldLens: 🌐 WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World、プロジェクトサイトはWorldLens: Full-Spectrum Evaluations of Driving World Models in Real World

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

  • Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark [48.0]
    ビデオ生成モデルは、Chain-of-Frames (CoF)推論を通じて、潜在的な世界シミュレータとして登場した。 既存のベンチマークは、忠実さやアライメントに重点を置いており、CoFの推論を評価していない。 我々は,認知科学と実世界のAI応用を基盤としたフレームワークであるGen-ViReを紹介する。
    論文  参考訳(メタデータ)   (Mon, 17 Nov 2025 19:11:39 GMT)
  • ビデオ生成モデルを通じた因果関係の把握(world modelへの可能性)を評価するベンチマークの提案。「Gen-ViRe evaluates six core cognitive dimensions: (1) Perceptual, (2) Analogical, (3) Abstract, (4) Planning, (5) Spatial & Temporal, and (6) Algorithmic & Logical, with each dimension comprising four different sub-categories.」
  • 「Sora-2 achieves the highest overall score (0.560), establishing the top tier with particularly strong performance in the most cognitively demanding domains: “Abstract Reasoning” (0.604), “Algorithmic & Logical” (0.472), and “Perceptual” (0.496). The second tier comprises three highly competitive models—Hailuo-2.3 (0.493), Wan-2.5 (0.490), and Veo-3.1 (0.486)—each exhibiting distinct specialized strengths. Hailuo-2.3 achieves the highest score in “Planning” (0.778), showcasing exceptional sequential decision-making capabilities, while Wan-2.5 leads in “Analogy” (0.500), excelling at analogical reasoning.」とモデルごとに特性がかなり異なるのが興味深い。
  • リポジトリはhttps://github.com/L-CodingSpace/GVR

A Step Toward World Models: A Survey on Robotic Manipulation

  • A Step Toward World Models: A Survey on Robotic Manipulation [58.7]
    本稿では,ロボット操作の手法のレビューを通じて,世界モデルのコア機能を示すアプローチについて考察する。 我々は、認識、予測、制御にまたがる役割を分析し、主要な課題と解決策を特定し、現実世界のモデルが持つべきコアコンポーネント、能力、機能を抽出する。
    論文  参考訳(メタデータ)   (Fri, 31 Oct 2025 00:57:24 GMT)
  • 「In this survey, rather than directly imposing a fixed definition and limiting our scope to methods explicitly labeled as world models, we examine approaches that exhibit the core capabilities of world models through a review of methods in robotic manipulation. We analyze their roles across perception, prediction, and control, identify key challenges and solutions, and distill the core components, capabilities, and functions that a real world model should possess.」とのこと。

GPT-5.1, ERNIE 5, Marble, SIMA2

先週もGPT-5.1の公開(GPT-5.1: A smarter, more conversational ChatGPT | OpenAI)、ERNIE 5の公開(XユーザーのBaidu Inc.さん: 「Here comes ERNIE 5.0 — our latest natively omni-modal foundational model. It excels in omni-modal understanding, creative writing, instruction following, and more. We will continue investing in and developing more cutting-edge models to push the boundaries of intelligence. https://t.co/S3L1Tlre2n」 / X)などニュースが続いた。評価はこれから、という感じではあるが大規模展開をすぐに行っていくのがすごい。

動画生成、3D生成など生成モデルをベースとしてWorld Model構築のトライが流行っており、Marble: A Multimodal World Model | World Labsも要注目である。同じく先週発表されたSIMA 2: A Gemini-Powered AI Agent for 3D Virtual Worlds – Google DeepMindのなかでGenie3(Genie 3: A new frontier for world models – Google DeepMind)への言及がある通りAI Agentが学ぶ場としても有効に思える。AIの内心・想像の世界としても有効性が指摘されていてホットな領域。

World Simulation with Video Foundation Models for Physical AI