Robotic – arXiv最新論文の紹介

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems [88.3]
AgiBot Worldは、217のタスクにまたがる100万以上のトラジェクトリを5つのデプロイメントシナリオで構成した大規模なプラットフォームである。 AgiBot Worldは高品質で多様なデータ配信を保証する。 GO-1は、現実世界のデクスタラスタスクや長距離タスクにおいて例外的な能力を示す。
論文参考訳（メタデータ） (Sun, 09 Mar 2025 15:40:29 GMT)
「1) We construct AgiBot World dataset, a multifarious robot learning dataset accompanied by opensource tools to advance research on policy learning at scale.」という大規模データセット構築と「2) We propose GO1, a robot foundation policy using latent action representations to unlock web-scale pre-training on heterogeneous data.」の提案。 Shanghai AI Lab,、AgiBot Inc. 、Shanghai Innovation Instituteによる成果。この領域もLLM的な進化となるのだろうか…。
リポジトリはGitHub – OpenDriveLab/AgiBot-World: The Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems、プロジェクトサイトはAgiBot World Colosseo | OpenDriveLab

Neural Fields in Robotics: A Survey

Neural Fields in Robotics: A Survey [39.9]
Neural Fieldsは、コンピュータビジョンとロボット工学における3Dシーン表現の変革的アプローチとして登場した。この調査は、ロボット工学における彼らの応用を探求し、知覚、計画、制御を強化する可能性を強調している。それらのコンパクトさ、メモリ効率、微分可能性、基礎モデルと生成モデルとのシームレスな統合は、リアルタイムアプリケーションに理想的です。
論文参考訳（メタデータ） (Sat, 26 Oct 2024 16:26:41 GMT)
「This paper provides a thorough review of Neural Fields in robotics, categorizing applications across various domains and evaluating their strengths and limitations, based on over 200 papers.」というサーベイ、ロボット分野で研究・応用が広がっているとのこと。
リポジトリはNeural Fields in Robotics: A Survey

Jailbreaking LLM-Controlled Robots

Jailbreaking LLM-Controlled Robots [82.0]
大規模言語モデル(LLM)は、文脈推論と直感的な人間とロボットの相互作用を可能にすることによって、ロボット工学の分野に革命をもたらした。 LLMは脱獄攻撃に弱いため、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを誘発する。 LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
論文参考訳（メタデータ） (Thu, 17 Oct 2024 15:55:36 GMT)
LLMが制御するロボットに対する脱獄攻撃、「(i) a white-box setting, wherein the attacker has full access to the NVIDIA Dolphins self-driving LLM, (ii) a gray-box setting, wherein the attacker has partial access to a Clearpath Robotics Jackal UGV robot equipped with a GPT-4o planner, and (iii) a black-box setting, wherein the attacker has only query access to the GPT-3.5-integrated Unitree Robotics Go2 robot dog. 」を設定、「In each scenario and across three new datasets of harmful robotic actions, we demonstrate that ROBOPAIR, as well as several static baselines, finds jailbreaks quickly and effectively, often achieving 100% attack success rates.」とのこと。。大きな脅威になりうる。
プロジェクトサイトはRoboPAIR

Latent Action Pretraining from Videos

Latent Action Pretraining from Videos [156.9]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (Tue, 15 Oct 2024 16:28:09 GMT)
インターネットにあるようなビデオデータからVLAを構築する手法の提案、「Across three benchmarks spanning both simulation and real-world robot experiments, we show that our method significantly improves transfer to downstream tasks compared to existing approaches.」とのこと
プロジェクトサイトはLAPA

GenSim2

GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs [38.3]
GenSim2は、複雑で現実的なシミュレーションタスク作成のためのスケーラブルなフレームワークである。パイプラインは200のオブジェクトで最大100の調音タスクのデータを生成し、必要な人的労力を減らすことができる。我々は、生成したデータをゼロショット転送や実世界の収集データとの協調訓練に使用できる、GenSim2の有望な使用法を示す。
論文参考訳（メタデータ） (Fri, 04 Oct 2024 17:51:33 GMT)
(1) task proposal, (2) solver creation, (3) multi-task training, and (4) generalization evaluation and sim-to-real transfer.からなるフレームワークの提案。各所にLLM、MLLMを活用しながらデータ合成を行っていくアプローチ。（NLPのライブラリ gensimではない）
プロジェクトサイトはGenSim2: Scaling Robotic Data Generation with Multi-modal and Reasoning LLMs

GenSim: A General Social Simulation Platform with Large Language Model based Agents [110.4]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文参考訳（メタデータ） (Sun, 06 Oct 2024 05:02:23 GMT)
大規模なLLM based Agentのシミュレーションプラットフォーム（これもNLPのgemsimではない）
リポジトリはGitHub – TangJiakai/GenSim

SELU: Self-Learning Embodied MLLMs in Unknown Environments

SELU: Self-Learning Embodied MLLMs in Unknown Environments [35.6]
マルチモーダルな大言語モデル(MLLM)は、強力な視覚的理解と意思決定能力を示している。本稿では,強化学習におけるアクター批判的自己学習パラダイムに触発された,SELUと呼ばれる新しいアクター批判的自己学習パラダイムを提案する。
論文参考訳（メタデータ） (Fri, 04 Oct 2024 10:40:11 GMT)
「We propose a self-learning paradigm for embodied MLLMs, SELU, inspired by the actorcritic paradigm in reinforcement learning, which enables MLLMs to self-adapt to unknown environments.」というSelf-XでEmbodiedというとても未来を感じる研究。
環境に対するActorに対してMLLM Criticが評価するという、最近流行りのフレームワークだが、Actor MLLMとClitic MLLMをそれぞれfine tuningしていくことに特徴がある（同じMLLMを使うSELU Oneより優れているとのこと）

Deep Generative Models in Robotics / Deep Reinforcement Learning for Robotics

AIとロボティクスの融合は重要な研究分野。近年だと生成AIとの融合が話題だが、深層強化学習に関しても研究が多い。この分野のサーベイはとてもありがたい。

Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations [52.1]
近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。本稿では,エネルギーベースモデル,拡散モデル,アクションバリューマップ,生成的敵ネットワークなど,コミュニティが探求してきたさまざまなモデルについて述べる。また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。
論文参考訳（メタデータ） (Thu, 08 Aug 2024 11:34:31 GMT)
生成モデルとロボティクスに関するサーベイ。

Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes [44.6]
強化学習(RL)は、広範囲のアプリケーションで非常に有望である。ロボットの問題は、物理世界との相互作用の複雑さとコストから起因して、RLの応用に根本的な困難をもたらす。この調査は、RLの能力を活用して一般的な実世界のロボットシステムを構築するための、RLの実践者とロボティクスの両方に洞察を提供するように設計されている。
論文参考訳（メタデータ） (Wed, 7 Aug 2024 04:35:38 GMT)
深層強化学習とロボティクスに関するサーベイ。

OpenVLA

OpenVLA: An Open-Source Vision-Language-Action Model [131.7]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 15:46:55 GMT)
オープンなVision-Language-Actionモデル、「Given an image observation and a language instruction, the model predicts 7-dimensional robot control actions.」という設定でベースはLlama-2。PEFTの効果など非常に参考なる。
プロジェクトサイトはOpenVLA: An Open-Source Vision-Language-Action Model

NeRF in Robotics: A Survey

NeRF in Robotics: A Survey [95.1]
近年の神経暗黙表現の出現は、コンピュータビジョンとロボティクス分野に急進的な革新をもたらした。 NeRFは、単純化された数学的モデル、コンパクトな環境記憶、連続的なシーン表現などの大きな表現上の利点から、この傾向を引き起こしている。
論文参考訳（メタデータ） (Thu, 02 May 2024 14:38:18 GMT)
Neural Radiance Fields のロボット分野への応用に関するサーベイ
「NeRF offers a reliable choice for many sub-tasks in robotics, such as scene understanding, reconstruction, dynamic perception, scene editing, object modelling, navigation, and manipulation guidance.」とのこと。

WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model

WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.9]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLLMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (Wed, 30 Aug 2023 11:35:21 GMT)
LLM + RobotなシステムとしてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を提案、ChatGPTを命令のサマライズに用い、DINO, SAM, SAR-NetでVisual groundingを行い、物理ロボットに展開と最近のAIモデルをフル活用している印象

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31