コンテンツへスキップ
- Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。 Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (Thu, 11 Sep 2025 17:59:07 GMT)
- 「(I) Our DEXPLORE is a unified single-loop optimization that learns dexterous manipulation directly from human MoCap by treating demonstrations as soft references within adaptive spatial scopes, without explicit retargeting and residual correction. (II) We distill the learned state-based tracker into a vision-based, skill-conditioned generative control policy that maps single-view depth and proprioception, together with a latent skill code, to low-level actions. (III) We demonstrate successful real-world deployment on a dexterous hand using only single-view depth sensing.」とのこと。
- プロジェクトサイトはDexplore
- Cosmos World Foundation Model Platform for Physical AI [136.1]
物理AIには、自分自身のデジタルツイン、ポリシーモデル、そして世界のデジタルツイン、ワールドモデルが必要です。 私たちは、開発者が物理AIセットアップのためにカスタマイズされた世界モデルを構築するのを助けるために、Cosmos World Foundation Model Platformを紹介します。
論文 参考訳(メタデータ) (Tue, 07 Jan 2025 06:55:50 GMT)
- バズっていたNVIDIAによるWorld Foundation Model。「Our platform covers a video curation pipeline, pre-trained world foundation models, examples of post-training of pre-trained world foundation models, and video tokenizers.」と包括的な構成でモデルを公開しているのはすごい。
- 構築過程で「We refine our data by excluding specific video types that could lead to poor generation quality or unrealistic dynamics, such as abstract visual patterns, video game footage, animated content, etc.」があるのが面白かった。unrealistic dynamicsはそうだろうと思う。
- 現状は初期段階、問題も多そうではあるが今後の発展に期待。現状の進化で作れるのか、根幹のモデルアーキテクチャが変わらないとできないのか、とても興味がある。
- リポジトリはGitHub – NVIDIA/Cosmos: Cosmos is a world model development platform that consists of world foundation models, tokenizers and video processing pipeline to accelerate the development of Physical AI at Robotics & AV labs. Cosmos is purpose built for physical AI. The Cosmos repository will enable end users to run the Cosmos models, run inference scripts and generate videos.