Moto: Latent Motion Token as the Bridging Language for Robot Manipulation 

  • Moto: Latent Motion Token as the Bridging Language for Robot Manipulation [66.2]
    我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。 我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。 実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 18:57:04 GMT)
  • 「This paper introduces Moto, a novel method that uses latent motion tokens as a “language” interface to bridge generative pre-training on video data with precise robot control.」という手法の提案。潜在的な意味というか意図というかをTokenシーケンスにして言語として扱うということ、かつ、それが有効というのは興味深い。
  • プロジェクトサイトはMoto

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です