- Neural Fields in Robotics: A Survey [39.9]
Neural Fieldsは、コンピュータビジョンとロボット工学における3Dシーン表現の変革的アプローチとして登場した。 この調査は、ロボット工学における彼らの応用を探求し、知覚、計画、制御を強化する可能性を強調している。 それらのコンパクトさ、メモリ効率、微分可能性、基礎モデルと生成モデルとのシームレスな統合は、リアルタイムアプリケーションに理想的です。
論文 参考訳(メタデータ) (Sat, 26 Oct 2024 16:26:41 GMT) - 「This paper provides a thorough review of Neural Fields in robotics, categorizing applications across various domains and evaluating their strengths and limitations, based on over 200 papers.」というサーベイ、ロボット分野で研究・応用が広がっているとのこと。
- リポジトリはNeural Fields in Robotics: A Survey
タグ: Robotic
Jailbreaking LLM-Controlled Robots
- Jailbreaking LLM-Controlled Robots [82.0]
大規模言語モデル(LLM)は、文脈推論と直感的な人間とロボットの相互作用を可能にすることによって、ロボット工学の分野に革命をもたらした。 LLMは脱獄攻撃に弱いため、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを誘発する。 LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
論文 参考訳(メタデータ) (Thu, 17 Oct 2024 15:55:36 GMT) - LLMが制御するロボットに対する脱獄攻撃、「(i) a white-box setting, wherein the attacker has full access to the NVIDIA Dolphins self-driving LLM, (ii) a gray-box setting, wherein the attacker has partial access to a Clearpath Robotics Jackal UGV robot equipped with a GPT-4o planner, and (iii) a black-box setting, wherein the attacker has only query access to the GPT-3.5-integrated Unitree Robotics Go2 robot dog. 」を設定、「In each scenario and across three new datasets of harmful robotic actions, we demonstrate that ROBOPAIR, as well as several static baselines, finds jailbreaks quickly and effectively, often achieving 100% attack success rates.」とのこと。。大きな脅威になりうる。
- プロジェクトサイトはRoboPAIR
Latent Action Pretraining from Videos
- Latent Action Pretraining from Videos [156.9]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。 本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (Tue, 15 Oct 2024 16:28:09 GMT) - インターネットにあるようなビデオデータからVLAを構築する手法の提案、「Across three benchmarks spanning both simulation and real-world robot experiments, we show that our method significantly improves transfer to downstream tasks compared to existing approaches.」とのこと
- プロジェクトサイトはLAPA
GenSim2
- GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs [38.3]
GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。 パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。 我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
論文 参考訳(メタデータ) (Fri, 04 Oct 2024 17:51:33 GMT) - (1) task proposal, (2) solver creation, (3) multi-task training, and (4) generalization evaluation and sim-to-real transfer.からなるフレームワークの提案。各所にLLM、MLLMを活用しながらデータ合成を行っていくアプローチ。(NLPのライブラリ gensimではない)
- プロジェクトサイトはGenSim2: Scaling Robotic Data Generation with Multi-modal and Reasoning LLMs
- GenSim: A General Social Simulation Platform with Large Language Model based Agents [110.4]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。 我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。 我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (Sun, 06 Oct 2024 05:02:23 GMT) - 大規模なLLM based Agentのシミュレーションプラットフォーム(これもNLPのgemsimではない)
- リポジトリはGitHub – TangJiakai/GenSim
SELU: Self-Learning Embodied MLLMs in Unknown Environments
- SELU: Self-Learning Embodied MLLMs in Unknown Environments [35.6]
マルチモーダルな大言語モデル(MLLM)は、強力な視覚的理解と意思決定能力を示している。 本稿では,強化学習におけるアクター批判的自己学習パラダイムに触発された,SELUと呼ばれる新しいアクター批判的自己学習パラダイムを提案する。
論文 参考訳(メタデータ) (Fri, 04 Oct 2024 10:40:11 GMT) - 「We propose a self-learning paradigm for embodied MLLMs, SELU, inspired by the actorcritic paradigm in reinforcement learning, which enables MLLMs to self-adapt to unknown environments.」というSelf-XでEmbodiedというとても未来を感じる研究。
- 環境に対するActorに対してMLLM Criticが評価するという、最近流行りのフレームワークだが、Actor MLLMとClitic MLLMをそれぞれfine tuningしていくことに特徴がある(同じMLLMを使うSELU Oneより優れているとのこと)
Deep Generative Models in Robotics / Deep Reinforcement Learning for Robotics
AIとロボティクスの融合は重要な研究分野。近年だと生成AIとの融合が話題だが、深層強化学習に関しても研究が多い。この分野のサーベイはとてもありがたい。
- Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations [52.1]
近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。 本稿では,エネルギーベースモデル,拡散モデル,アクションバリューマップ,生成的敵ネットワークなど,コミュニティが探求してきたさまざまなモデルについて述べる。 また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。
論文 参考訳(メタデータ) (Thu, 08 Aug 2024 11:34:31 GMT) - 生成モデルとロボティクスに関するサーベイ。
- Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes [44.6]
強化学習(RL)は、広範囲のアプリケーションで非常に有望である。 ロボットの問題は、物理世界との相互作用の複雑さとコストから起因して、RLの応用に根本的な困難をもたらす。 この調査は、RLの能力を活用して一般的な実世界のロボットシステムを構築するための、RLの実践者とロボティクスの両方に洞察を提供するように設計されている。
論文 参考訳(メタデータ) (Wed, 7 Aug 2024 04:35:38 GMT) - 深層強化学習とロボティクスに関するサーベイ。
OpenVLA
- OpenVLA: An Open-Source Vision-Language-Action Model [131.7]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。 モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 15:46:55 GMT) - オープンなVision-Language-Actionモデル、「Given an image observation and a language instruction, the model predicts 7-dimensional robot control actions.」という設定でベースはLlama-2。PEFTの効果など非常に参考なる。
- プロジェクトサイトはOpenVLA: An Open-Source Vision-Language-Action Model
NeRF in Robotics: A Survey
- NeRF in Robotics: A Survey [95.1]
近年の神経暗黙表現の出現は、コンピュータビジョンとロボティクス分野に急進的な革新をもたらした。 NeRFは、単純化された数学的モデル、コンパクトな環境記憶、連続的なシーン表現などの大きな表現上の利点から、この傾向を引き起こしている。
論文 参考訳(メタデータ) (Thu, 02 May 2024 14:38:18 GMT) - Neural Radiance Fields のロボット分野への応用に関するサーベイ
- 「NeRF offers a reliable choice for many sub-tasks in robotics, such as scene understanding, reconstruction, dynamic perception, scene editing, object modelling, navigation, and manipulation guidance.」とのこと。
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model
- WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.9]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。 本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。 我々は,このLLMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (Wed, 30 Aug 2023 11:35:21 GMT) - LLM + RobotなシステムとしてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を提案、ChatGPTを命令のサマライズに用い、DINO, SAM, SAR-NetでVisual groundingを行い、物理ロボットに展開と最近のAIモデルをフル活用している印象
LLM as A Robotic Brain
- LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.1]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。 メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。 ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (Wed, 19 Apr 2023 00:08:48 GMT) - LLMのゼロショット性能を活用したロボットの行動計画&制御
- 記憶と世界モデル的な部分をLLMに担当させているとのこと