Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.6]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文参考訳（メタデータ） (Mon, 21 Jul 2025 13:19:09 GMT)
動画データからのVLAモデル構築、手の動作を離散的なトークンに変換して扱うなどパイプラインも興味深い。
リポジトリはBeing-H0

コメントを残す

コメントを残す コメントをキャンセル