コンテンツへスキップ
- EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [62.4]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。 本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。 実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (Wed, 24 May 2023 11:04:30 GMT)
- LLMを使ったplan generation、EgoCOTという embodied planning datasetに関する論文。
- リポジトリはEmbodiedGPT
- RT-1: Robotics Transformer for Real-World Control at Scale [98.1]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。 実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (Tue, 13 Dec 2022 18:55:15 GMT)
- 大規模なデータを収集、Transformerで構築したモデルの提案。Transfomerの優秀性がよくわかる。
- 13台のロボット、17か月間で700タスク13万エピソードとさすがの規模。700以上の命令に対して97%の成功率、新たなタスクについても効果有とのこと。
- 大規模とはいえやってやれないことはない企業はありそうだが、Transformerでやりきるという選択はすごいなーと思う。
- RT-1: Robotics Transformer (robotics-transformer.github.io)
- Correcting Robot Plans with Natural Language Feedback [88.9]
既存の補正方法(例えばジョイスティックの使用やエンドエフェクターの直接操作など)は完全な遠隔操作やリアルタイム操作を必要とする。 本稿では,ロボット訂正のための表現的かつ柔軟なツールとして自然言語を探索する。これらの変換により、ユーザは目標を正し、ロボットの動きを更新し、計画上のエラーから回復できる。 本手法により,シミュレーション環境や実環境において,複数の制約を合成し,未知のシーン,オブジェクト,文に一般化することが可能となる。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 11 Apr 2022 15:22:43 GMT)- 自然言語でロボットにフィードバックするという未来を感じる研究。
- Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.3]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。 このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。 低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (Mon, 4 Apr 2022 17:57:11 GMT)- 言語モデルが持つ知識から大きなタスクを複数の小さなタスクに分解することは可能だが、実施不可能なタスク分解が行われることもある。ある領域で実施可能なことを評価関数とすることで変なタスク分解が起きないようにできるとのこと。
- いろいろなところで自然言語を介した取り組みがあるなーと思う。
- プロジェクトサイトはSayCan (say-can.github.io)