RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.5]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (Fri, 28 Jul 2023 21:18:02 GMT)
LLM + Robotのような研究が盛り上がっているが、本件ではアクションをトークン化しweb scaleのVQAデータセット＋13機のロボット×17か月間のデータを使って学習を行ったとのこと。
プロジェクトサイトはRT-2: Vision-Language-Action Models (robotics-transformer2.github.io)
参考としてRT-1はRT-1: Robotics Transformer – arXiv最新論文の紹介 (devneko.jp)

コメントを残す

コメントを残す コメントをキャンセル