Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation 

  • Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation [65.3]
    我々は,ロボット操作のための統一世界基盤プラットフォームであるGenie Envisioner(GE)を紹介する。 GEは、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワークに統合する。
    論文  参考訳(メタデータ)   (Thu, 07 Aug 2025 17:59:44 GMT)
  • 「we introduce Genie Envisioner (GE), a unified platform that collapses robot sensing, policy learning, and evaluation into a single closed-loop video generative world model」とビデオ生成をコアとしたフレームワークの提案。この手の学習には身体性が必要という指摘もあるがビデオ生成を主体として解決しうる問題なのかはとても興味がある。
  • リポジトリはGenie Envisioner

RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies

  • RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies [125.4]
    本稿では,実世界における汎用ロボットポリシーのスケーラブルな評価手法であるRoboArenaを提案する。 固定タスク,環境,場所に関する評価を標準化する代わりに,評価者の分散ネットワークにまたがるクラウドソース評価を提案する。 我々は、DROIDロボットプラットフォームを用いて、7つの学術機関における評価者のネットワークにアプローチをインスタンス化する。
    論文  参考訳(メタデータ)   (Sun, 22 Jun 2025 18:13:31 GMT)
  • 「In this work, we propose RoboArena, a new approach for scalable evaluation of generalist robot policies in the real world.」というrobot policyにフォーカスした評価フレームワークの提案。
  • プロジェクトサイトはRoboArena

Distilling On-device Language Models for Robot Planning with Minimal Human Intervention 

  • Distilling On-device Language Models for Robot Planning with Minimal Human Intervention [117.9]
    PRISMは、SLM(Small Language Model)対応ロボットプランナーを蒸留するためのフレームワークである。 PRISMを3つのLCM対応プランナーに適用し、マッピング、探索、操作、家事支援を行う。 GPT-4o の 10-20% から 93% 以上まで, PRISM は Llama-3.2-3B の性能を向上することを示した。
    論文  参考訳(メタデータ)   (Fri, 20 Jun 2025 21:44:27 GMT)
  • robot planningを対象とした「Given a source LLM-enabled planner, PRISM synthesizes tasks and environments, elicits plans from the LLM-enabled planner in these synthesized environments, and then uses the resulting data to train an SLM-enabled planner that serves as a drop-in replacement for the source model.」という蒸留フレームワークの提案。直観的にも有効そうだが実際有望な結果。
  • プロジェクトサイトはPRISM

RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

  • RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.8]
    RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。 大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。 強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
    論文  参考訳(メタデータ)   (Sat, 03 May 2025 06:17:18 GMT)
  • 大規模なVLMが中心となるロボット操作のためのアーキテクチャ。VLM based real agentsのような印象。
  • プロジェクトサイトはRoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

  • AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems [88.3]
    AgiBot Worldは、217のタスクにまたがる100万以上のトラジェクトリを5つのデプロイメントシナリオで構成した大規模なプラットフォームである。 AgiBot Worldは高品質で多様なデータ配信を保証する。 GO-1は、現実世界のデクスタラスタスクや長距離タスクにおいて例外的な能力を示す。
    論文  参考訳(メタデータ)   (Sun, 09 Mar 2025 15:40:29 GMT)
  • 「1) We construct AgiBot World dataset, a multifarious robot learning dataset accompanied by opensource tools to advance research on policy learning at scale.」という大規模データセット構築と「2) We propose GO1, a robot foundation policy using latent action representations to unlock web-scale pre-training on heterogeneous data.」の提案。 Shanghai AI Lab,、AgiBot Inc. 、Shanghai Innovation Instituteによる成果。この領域もLLM的な進化となるのだろうか…。
  • リポジトリはGitHub – OpenDriveLab/AgiBot-World: The Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems、プロジェクトサイトはAgiBot World Colosseo | OpenDriveLab

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation 

  • Moto: Latent Motion Token as the Bridging Language for Robot Manipulation [66.2]
    我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。 我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。 実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
    論文  参考訳(メタデータ)   (Thu, 05 Dec 2024 18:57:04 GMT)
  • 「This paper introduces Moto, a novel method that uses latent motion tokens as a “language” interface to bridge generative pre-training on video data with precise robot control.」という手法の提案。潜在的な意味というか意図というかをTokenシーケンスにして言語として扱うということ、かつ、それが有効というのは興味深い。
  • プロジェクトサイトはMoto

Neural Fields in Robotics: A Survey 

  • Neural Fields in Robotics: A Survey [39.9]
    Neural Fieldsは、コンピュータビジョンとロボット工学における3Dシーン表現の変革的アプローチとして登場した。 この調査は、ロボット工学における彼らの応用を探求し、知覚、計画、制御を強化する可能性を強調している。 それらのコンパクトさ、メモリ効率、微分可能性、基礎モデルと生成モデルとのシームレスな統合は、リアルタイムアプリケーションに理想的です。
    論文  参考訳(メタデータ)   (Sat, 26 Oct 2024 16:26:41 GMT)
  • 「This paper provides a thorough review of Neural Fields in robotics, categorizing applications across various domains and evaluating their strengths and limitations, based on over 200 papers.」というサーベイ、ロボット分野で研究・応用が広がっているとのこと。
  • リポジトリはNeural Fields in Robotics: A Survey