コンテンツへスキップ
- EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [62.4]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。 本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。 実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (Wed, 24 May 2023 11:04:30 GMT)
- LLMを使ったplan generation、EgoCOTという embodied planning datasetに関する論文。
- リポジトリはEmbodiedGPT
- Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。 我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文 参考訳(メタデータ) (Thu, 18 May 2023 00:35:38 GMT)
- 世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ(VirtualHome)を用いてより広い情報を集めるアプローチで大変興味深い。
- 重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors & elastic weight consolidationのEWC-LoRAという手法を用いているそう。
- SEAL: Self-supervised Embodied Active Learning using Exploration and 3D Consistency [122.2]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。 インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。 我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 2 Dec 2021 06:26:38 GMT)