V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

  • V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning [43.2]
    現代のAIにとっての大きな課題は、世界を理解し、主に観察によって行動することを学ぶことである。 本稿では,インターネット規模のビデオデータと少量のインタラクションデータを組み合わせた自己教師型アプローチについて検討する。 我々は物理世界で理解し、予測し、計画できるモデルを開発する。
    論文  参考訳(メタデータ)   (Wed, 11 Jun 2025 17:57:09 GMT)
  • 「we show that joint-embedding predictive architectures learning from videos can be used to build a world model that enables understanding the physical world, predicting future states, and effectively planning in new situations; this is achieved by leveraging internet-scale video and a small amount of interaction data.」とのこと。
  • プロジェクトサイトはIntroducing the V-JEPA 2 world model and new benchmarks for physical reasoning、リポジトリはGitHub – facebookresearch/vjepa2: PyTorch code and models for VJEPA2 self-supervised learning from video.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です