Moto: Latent Motion Token as the Bridging Language for Robot Manipulation
Moto: Latent Motion Token as the Bridging Language for Robot Manipulation [66.2] 我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。 我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。 実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。 論文参考訳(メタデータ) (Thu, 05 Dec 2024 18:57:04 GMT)
「This paper introduces Moto, a novel method that uses latent motion tokens as a “language” interface to bridge generative pre-training on video data with precise robot control.」という手法の提案。潜在的な意味というか意図というかをTokenシーケンスにして言語として扱うということ、かつ、それが有効というのは興味深い。