Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos 

  • Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.6]
    本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。 提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。 本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 13:19:09 GMT)
  • 動画データからのVLAモデル構築、手の動作を離散的なトークンに変換して扱うなどパイプラインも興味深い。
  • リポジトリはBeing-H0

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です