RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

  • RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.5]
    本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。 提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
    論文  参考訳(メタデータ)   (Fri, 28 Jul 2023 21:18:02 GMT)
  • LLM + Robotのような研究が盛り上がっているが、本件ではアクションをトークン化しweb scaleのVQAデータセット+13機のロボット×17か月間のデータを使って学習を行ったとのこと。
  • プロジェクトサイトはRT-2: Vision-Language-Action Models (robotics-transformer2.github.io)
  • 参考としてRT-1はRT-1: Robotics Transformer – arXiv最新論文の紹介 (devneko.jp)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です