- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.5]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。 提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (Fri, 28 Jul 2023 21:18:02 GMT) - LLM + Robotのような研究が盛り上がっているが、本件ではアクションをトークン化しweb scaleのVQAデータセット+13機のロボット×17か月間のデータを使って学習を行ったとのこと。
- プロジェクトサイトはRT-2: Vision-Language-Action Models (robotics-transformer2.github.io)
- 参考としてRT-1はRT-1: Robotics Transformer – arXiv最新論文の紹介 (devneko.jp)