Latent Action Pretraining from Videos

  • Latent Action Pretraining from Videos [156.9]
    一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。 本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
    論文  参考訳(メタデータ)   (Tue, 15 Oct 2024 16:28:09 GMT)
  • インターネットにあるようなビデオデータからVLAを構築する手法の提案、「Across three benchmarks spanning both simulation and real-world robot experiments, we show that our method significantly improves transfer to downstream tasks compared to existing approaches.」とのこと
  • プロジェクトサイトはLAPA