World Action Models are Zero-shot Policies [111.9] 本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。 ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。 ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。 論文参考訳(メタデータ) (Tue, 17 Feb 2026 15:04:02 GMT)
「By jointly predicting video and action, World Action Models (WAMs) inherit world physics priors that enable 1) effective learning from diverse, non-repetitive data, 2) open-world generalization,3) cross-embodiment learning from video-only data, and 4) few-shot adaptation to new robots.」とのことで、ビデオ合成を活用したもの。ゆえに「 we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz.」と高速改善。
Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution [32.9] 我々は、高速かつスムーズなリアルタイム実行のために最適化された高度な視覚言語アクション(VLA)モデルであるXiaomi-Robotics-0を紹介する。 Xiaomi-Robotics-0は、大規模なクロス・エボディメント・ロボット軌道と視覚言語データに事前訓練された。 我々はXiaomi-Robotics-0をシミュレーションベンチマークで広範囲に評価し、正確で巧妙なバイマニュアル操作を必要とする2つの挑戦的な実ロボットタスクについて検討した。 論文参考訳(メタデータ) (Fri, 13 Feb 2026 07:30:43 GMT)
XiaomiによるVLAモデル。「Our robot trajectory data are sourced from multiple open-sourced robot datasets (e g , DROID [23] and MolmoAct [26]) as well as in-house data collected by ourselves. Our in-house data consists of teleoperated trajectories for two challenging tasks: Lego Disassembly and Towel Folding. In total, we collected 338 and 400 hours of data for these two tasks, respectively.」とこちらはデータを作りにいっている。