- Cosmos World Foundation Model Platform for Physical AI [136.1]
物理AIには、自分自身のデジタルツイン、ポリシーモデル、そして世界のデジタルツイン、ワールドモデルが必要です。 私たちは、開発者が物理AIセットアップのためにカスタマイズされた世界モデルを構築するのを助けるために、Cosmos World Foundation Model Platformを紹介します。
論文 参考訳(メタデータ) (Tue, 07 Jan 2025 06:55:50 GMT)
- バズっていたNVIDIAによるWorld Foundation Model。「Our platform covers a video curation pipeline, pre-trained world foundation models, examples of post-training of pre-trained world foundation models, and video tokenizers.」と包括的な構成でモデルを公開しているのはすごい。
- 構築過程で「We refine our data by excluding specific video types that could lead to poor generation quality or unrealistic dynamics, such as abstract visual patterns, video game footage, animated content, etc.」があるのが面白かった。unrealistic dynamicsはそうだろうと思う。
- 現状は初期段階、問題も多そうではあるが今後の発展に期待。現状の進化で作れるのか、根幹のモデルアーキテクチャが変わらないとできないのか、とても興味がある。
- リポジトリはGitHub – NVIDIA/Cosmos: Cosmos is a world model development platform that consists of world foundation models, tokenizers and video processing pipeline to accelerate the development of Physical AI at Robotics & AV labs. Cosmos is purpose built for physical AI. The Cosmos repository will enable end users to run the Cosmos models, run inference scripts and generate videos.