ロボット – arXiv最新論文の紹介

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.5]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (Fri, 28 Jul 2023 21:18:02 GMT)
LLM + Robotのような研究が盛り上がっているが、本件ではアクションをトークン化しweb scaleのVQAデータセット＋13機のロボット×17か月間のデータを使って学習を行ったとのこと。
プロジェクトサイトはRT-2: Vision-Language-Action Models (robotics-transformer2.github.io)
参考としてRT-1はRT-1: Robotics Transformer – arXiv最新論文の紹介 (devneko.jp)

Language to Rewards for Robotic Skill Synthesis [37.2]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。 LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文参考訳（メタデータ） (Wed, 14 Jun 2023 17:27:10 GMT)
LLMを人間とロボットの仲介役として使うため、人間の指示を報酬を示す関数（コード）に変換するアプローチを提案
リポジトリはLanguage to Rewards for Robotic Skill Synthesis (language-to-reward.github.io)

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [62.4]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文参考訳（メタデータ） (Wed, 24 May 2023 11:04:30 GMT)
LLMを使ったplan generation、EgoCOTという embodied planning datasetに関する論文。
リポジトリはEmbodiedGPT

RT-1: Robotics Transformer for Real-World Control at Scale [98.1]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文参考訳（メタデータ） (Tue, 13 Dec 2022 18:55:15 GMT)
大規模なデータを収集、Transformerで構築したモデルの提案。Transfomerの優秀性がよくわかる。
13台のロボット、17か月間で700タスク13万エピソードとさすがの規模。700以上の命令に対して97%の成功率、新たなタスクについても効果有とのこと。
大規模とはいえやってやれないことはない企業はありそうだが、Transformerでやりきるという選択はすごいなーと思う。
RT-1: Robotics Transformer (robotics-transformer.github.io)

Correcting Robot Plans with Natural Language Feedback [88.9]
既存の補正方法(例えばジョイスティックの使用やエンドエフェクターの直接操作など)は完全な遠隔操作やリアルタイム操作を必要とする。本稿では,ロボット訂正のための表現的かつ柔軟なツールとして自然言語を探索する。これらの変換により、ユーザは目標を正し、ロボットの動きを更新し、計画上のエラーから回復できる。本手法により,シミュレーション環境や実環境において,複数の制約を合成し,未知のシーン,オブジェクト,文に一般化することが可能となる。
論文参考訳（メタデータ）参考訳（全文） (Mon, 11 Apr 2022 15:22:43 GMT)
- 自然言語でロボットにフィードバックするという未来を感じる研究。

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.3]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文参考訳（メタデータ） (Mon, 4 Apr 2022 17:57:11 GMT)
- 言語モデルが持つ知識から大きなタスクを複数の小さなタスクに分解することは可能だが、実施不可能なタスク分解が行われることもある。ある領域で実施可能なことを評価関数とすることで変なタスク分解が起きないようにできるとのこと。
  - いろいろなところで自然言語を介した取り組みがあるなーと思う。
- プロジェクトサイトはSayCan (say-can.github.io)