Embodied – ページ 2 – arXiv最新論文の紹介

Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models

Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文参考訳（メタデータ） (Sun, 22 Sep 2024 00:30:11 GMT)
多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)

P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.1]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。自然言語命令は明示的なタスクプランニングを欠くことが多い。タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文参考訳（メタデータ） (Tue, 17 Sep 2024 15:29:34 GMT)
自然言語の指示と環境情報が与えられた時のエージェント動作（計画など）にRAGを使うアプローチの提案。RAGのデータベースを動的に更新していくものでLLM based Agentsそのものの印象。
感覚的にRetrieveに難しさがありそうだが、「When an agent interacts with the environment during a task, it first receives the environment’s goal instruction 𝐼𝑔 and observation 𝑂𝑡. Then it encodes with MiniLM [31] both of them」とあるがこの方針でうまくいくのかという驚き。

WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.9]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLLMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (Wed, 30 Aug 2023 11:35:21 GMT)
LLM + RobotなシステムとしてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を提案、ChatGPTを命令のサマライズに用い、DINO, SAM, SAR-NetでVisual groundingを行い、物理ロボットに展開と最近のAIモデルをフル活用している印象

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [62.4]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文参考訳（メタデータ） (Wed, 24 May 2023 11:04:30 GMT)
LLMを使ったplan generation、EgoCOTという embodied planning datasetに関する論文。
リポジトリはEmbodiedGPT

Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文参考訳（メタデータ） (Thu, 18 May 2023 00:35:38 GMT)
世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ（VirtualHome）を用いてより広い情報を集めるアプローチで大変興味深い。
重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors ＆ elastic weight consolidationのEWC-LoRAという手法を用いているそう。

SEAL: Self-supervised Embodied Active Learning using Exploration and 3D Consistency [122.2]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Dec 2021 06:26:38 GMT)
- （人がラベル等を与えることなく）3D空間で行動→知覚のループを回すことでオブジェクト検出やセグメンテーションの性能が向上するとのこと。自ら学んでいるように見え、非常に興味深い。
- プロジェクトサイトはSEAL: Self-supervised Embodied Active Learning (devendrachaplot.github.io)