コンテンツへスキップ
- What Breaks Embodied AI Security:LLM Vulnerabilities, CPS Flaws,or Something Else? [28.1]
身体化されたAIシステムは、制御された環境から安全クリティカルな現実世界へのデプロイへと急速に移行している。 非身体化AIとは異なり、インボディードインテリジェンスにおける失敗は、不可逆的な物理的結果をもたらす。 我々は,システムレベルのミスマッチから,重大な障害が生じることを論じる。
論文 参考訳(メタデータ) (Thu, 19 Feb 2026 13:29:00 GMT)
- Embodied AIに特徴的な安全性に関するサーベイ。「we identify four core insights that explain why embodied AI is fundamentally harder to secure: (i) semantic correctness does not imply physical safety, as language-level reasoning abstracts away geometry, dynamics, and contact constraints; (ii) identical actions can lead to drastically different outcomes across physical states due to nonlinear dynamics and state uncertainty; (iii) small errors propagate and amplify across tightly coupled perception–decision–action loops; and (iv) safety is not compositional across time or system layers, enabling locally safe decisions to accumulate into globally unsafe behavior. 」
- Self-evolving Embodied AI [31.5]
エンボディード・人工知能(英語: Embodied Artificial Intelligence、AI)は、エージェントとその環境によって、能動的知覚、具体的認知、行動相互作用を通じて形成されるインテリジェントなシステムである。 本稿では,エージェントが変化状態と環境に基づいて動作する新たなパラダイムである,自己進化型エンボディAIを紹介する。
論文 参考訳(メタデータ) (Wed, 04 Feb 2026 10:40:34 GMT)
- Embodiedかつ自己進化するAIに関する紹介、サーベイ。夢物語ではなくなっている点に驚く。
- MiMo-Embodied: X-Embodied Foundation Model Technical Report [53.3]
私たちはMiMo-Embodiedをオープンソースとして公開しました。 MiMo-Embodiedはタスクプランニング、アフォーマンス予測、空間理解において17のAIベンチマークにまたがる新たな記録を設定している。 これらのタスク全体で、MiMo-Embodiedは既存のオープンソース、クローズドソース、および特別なベースラインを著しく上回っている。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 16:34:55 GMT)
- 「This report introduces MiMo-Embodied, a pioneering cross-embodied vision-language model that achieves state-of-the-art performance in both autonomous driving and embodied AI tasks. As the first open-source VLM integrating these two critical domains, MiMo-Embodied significantly enhances understanding and reasoning in dynamic physical environments. Extensive evaluations across 29 benchmarks show that MiMo-Embodied achieves superior performance in both embodied and autonomous driving tasks, significantly outperforming existing open-source and closed-source general VLMs, as well as specialized VLMs for a single domain」とEmbdiedなタスクで高性能を主張する公開モデル。ドメインによる得意不得意はあるだろうが、商用モデルの性能も超えている。
- リポジトリはGitHub – XiaomiMiMo/MiMo-Embodied: MiMo-Embodied
- Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。 Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (Thu, 11 Sep 2025 17:59:07 GMT)
- 「(I) Our DEXPLORE is a unified single-loop optimization that learns dexterous manipulation directly from human MoCap by treating demonstrations as soft references within adaptive spatial scopes, without explicit retargeting and residual correction. (II) We distill the learned state-based tracker into a vision-based, skill-conditioned generative control policy that maps single-view depth and proprioception, together with a latent skill code, to low-level actions. (III) We demonstrate successful real-world deployment on a dexterous hand using only single-view depth sensing.」とのこと。
- プロジェクトサイトはDexplore
- Embodied AI Agents: Modeling the World [165.0]
本稿では,視覚的,仮想的,物理的形態を具現化したAIエージェントの研究について述べる。 我々は,世界モデルの開発が,具体的AIエージェントの推論と計画の中心であることを提案する。 また,より優れた人間とエージェントのコラボレーションを実現するために,ユーザのメンタルワールドモデルを学ぶことを提案する。
論文 参考訳(メタデータ) (Fri, 27 Jun 2025 16:05:34 GMT)
- 「We propose that the development of world models is central to reasoning and planning of embodied AI agents, allowing these agents to understand and predict their environment, to understand user intentions and social contexts, thereby enhancing their ability to perform complex tasks autonomously. World modeling encompasses the integration of multimodal perception, planning through reasoning for action and control, and memory to create a comprehensive understanding of the physical world.」という整理
- The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas [90.3]
良いアイデアは単に斬新なものではなく、実行後により良い研究がもたらされるべきである。 AIが生み出すアイデアがより良い研究成果をもたらすかどうかをテストするために、我々は実行研究を行う。 実行前後の同じアイデアのレビュースコアを比較すると、LLM生成のアイデアのスコアは専門家によるアイデアよりも大幅に減少する。
論文 参考訳(メタデータ) (Wed, 25 Jun 2025 19:47:23 GMT)
- LLMが出したアイデアと専門家のアイデアを「Our execution participants spend an average of 103 hours executing the assigned idea and then submit the codebase and paper to document their experiments. All projects are then reviewed blindly by our recruited expert reviewers」と評価したところ「Average scores of AI ideas drop significantly more than Human ideas in the execution study across all the evaluation metrics.」という指摘。
- やはり人間の専門家は深く考えているようという興味深い結果。同時に、アイデアのみだとAIの評価が高いということはアイデアだしでは有効なのではないか?とか最終的なスコアでもそこそこ健闘しているのではないか?と見えなくもない。下記論文のようにAI科学者の実現可能性は高まっているように思う。
- リポジトリはGitHub – NoviScl/AI-Researcher
- Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI [98.2]
知的科学研究所(ISL)のパラダイムを提案する。 ISLは、認知と具体的知性を深く統合した多層クローズドループフレームワークである。 このようなシステムは、現在の科学的発見の限界を克服するために不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (Tue, 24 Jun 2025 13:31:44 GMT)
- 「1) Foundation Models provide multi-modal scientific knowledge representation and closed-loop learning capabilities, supporting complex reasoning and domain adaptation; (2) Agent Layer dynamically orchestrates scientific workflows—including hypothesis generation, literature review, experimental planning, execution, and analysis—while integrating model/toolkit via MCP integration; (3) Embodied Layer realizes robust physical interaction through advanced perception, navigation, and manipulation modules, enabling precise, adaptive operations in real-world laboratory environments.」からなるAI科学者・AIラボフレームワークの提案。
- 現状と課題がとても参考になる。
- Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence [109.3]
Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。 多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。 その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
論文 参考訳(メタデータ) (Wed, 18 Jun 2025 17:58:17 GMT)
- 「we introduce EMBODIED WEB AGENTS as a new conceptual paradigm of AI systems that unify physical embodiment with web-scale knowledge access — capable of perceiving and acting in the real world while reasoning over dynamic, unstructured information from the web.」という提案。ベンチマークも構築されている。よくありそうなシチュエーションだが、現時点では先端モデルも苦戦する難しいタスクとなっている。
- リポジトリはEmbodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
- A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities [31.2]
医療におけるEmAIは、アルゴリズム、ロボティクス、バイオメディシンといった多様な分野にまたがる。 医療のためのEmAIの”脳”の概要を包括的に紹介し、認識、アクティベーション、計画、記憶のためのAIアルゴリズムを紹介します。 我々は、技術的な障壁を議論し、倫理的考察を探求し、医療におけるEmAIの将来を前方視する。
論文 参考訳(メタデータ) (Mon, 13 Jan 2025 16:35:52 GMT)
- 医療におけるEmbodiedAIのサーベイ。非常に広範な内容で引用数は800を超える