コンテンツへスキップ
- MiMo-Embodied: X-Embodied Foundation Model Technical Report [53.3]
私たちはMiMo-Embodiedをオープンソースとして公開しました。 MiMo-Embodiedはタスクプランニング、アフォーマンス予測、空間理解において17のAIベンチマークにまたがる新たな記録を設定している。 これらのタスク全体で、MiMo-Embodiedは既存のオープンソース、クローズドソース、および特別なベースラインを著しく上回っている。
論文 参考訳(メタデータ) (Thu, 20 Nov 2025 16:34:55 GMT)
- 「This report introduces MiMo-Embodied, a pioneering cross-embodied vision-language model that achieves state-of-the-art performance in both autonomous driving and embodied AI tasks. As the first open-source VLM integrating these two critical domains, MiMo-Embodied significantly enhances understanding and reasoning in dynamic physical environments. Extensive evaluations across 29 benchmarks show that MiMo-Embodied achieves superior performance in both embodied and autonomous driving tasks, significantly outperforming existing open-source and closed-source general VLMs, as well as specialized VLMs for a single domain」とEmbdiedなタスクで高性能を主張する公開モデル。ドメインによる得意不得意はあるだろうが、商用モデルの性能も超えている。
- リポジトリはGitHub – XiaomiMiMo/MiMo-Embodied: MiMo-Embodied
- Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。 Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (Thu, 11 Sep 2025 17:59:07 GMT)
- 「(I) Our DEXPLORE is a unified single-loop optimization that learns dexterous manipulation directly from human MoCap by treating demonstrations as soft references within adaptive spatial scopes, without explicit retargeting and residual correction. (II) We distill the learned state-based tracker into a vision-based, skill-conditioned generative control policy that maps single-view depth and proprioception, together with a latent skill code, to low-level actions. (III) We demonstrate successful real-world deployment on a dexterous hand using only single-view depth sensing.」とのこと。
- プロジェクトサイトはDexplore
- Embodied AI Agents: Modeling the World [165.0]
本稿では,視覚的,仮想的,物理的形態を具現化したAIエージェントの研究について述べる。 我々は,世界モデルの開発が,具体的AIエージェントの推論と計画の中心であることを提案する。 また,より優れた人間とエージェントのコラボレーションを実現するために,ユーザのメンタルワールドモデルを学ぶことを提案する。
論文 参考訳(メタデータ) (Fri, 27 Jun 2025 16:05:34 GMT)
- 「We propose that the development of world models is central to reasoning and planning of embodied AI agents, allowing these agents to understand and predict their environment, to understand user intentions and social contexts, thereby enhancing their ability to perform complex tasks autonomously. World modeling encompasses the integration of multimodal perception, planning through reasoning for action and control, and memory to create a comprehensive understanding of the physical world.」という整理
- The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas [90.3]
良いアイデアは単に斬新なものではなく、実行後により良い研究がもたらされるべきである。 AIが生み出すアイデアがより良い研究成果をもたらすかどうかをテストするために、我々は実行研究を行う。 実行前後の同じアイデアのレビュースコアを比較すると、LLM生成のアイデアのスコアは専門家によるアイデアよりも大幅に減少する。
論文 参考訳(メタデータ) (Wed, 25 Jun 2025 19:47:23 GMT)
- LLMが出したアイデアと専門家のアイデアを「Our execution participants spend an average of 103 hours executing the assigned idea and then submit the codebase and paper to document their experiments. All projects are then reviewed blindly by our recruited expert reviewers」と評価したところ「Average scores of AI ideas drop significantly more than Human ideas in the execution study across all the evaluation metrics.」という指摘。
- やはり人間の専門家は深く考えているようという興味深い結果。同時に、アイデアのみだとAIの評価が高いということはアイデアだしでは有効なのではないか?とか最終的なスコアでもそこそこ健闘しているのではないか?と見えなくもない。下記論文のようにAI科学者の実現可能性は高まっているように思う。
- リポジトリはGitHub – NoviScl/AI-Researcher
- Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI [98.2]
知的科学研究所(ISL)のパラダイムを提案する。 ISLは、認知と具体的知性を深く統合した多層クローズドループフレームワークである。 このようなシステムは、現在の科学的発見の限界を克服するために不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (Tue, 24 Jun 2025 13:31:44 GMT)
- 「1) Foundation Models provide multi-modal scientific knowledge representation and closed-loop learning capabilities, supporting complex reasoning and domain adaptation; (2) Agent Layer dynamically orchestrates scientific workflows—including hypothesis generation, literature review, experimental planning, execution, and analysis—while integrating model/toolkit via MCP integration; (3) Embodied Layer realizes robust physical interaction through advanced perception, navigation, and manipulation modules, enabling precise, adaptive operations in real-world laboratory environments.」からなるAI科学者・AIラボフレームワークの提案。
- 現状と課題がとても参考になる。
- Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence [109.3]
Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。 多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。 その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
論文 参考訳(メタデータ) (Wed, 18 Jun 2025 17:58:17 GMT)
- 「we introduce EMBODIED WEB AGENTS as a new conceptual paradigm of AI systems that unify physical embodiment with web-scale knowledge access — capable of perceiving and acting in the real world while reasoning over dynamic, unstructured information from the web.」という提案。ベンチマークも構築されている。よくありそうなシチュエーションだが、現時点では先端モデルも苦戦する難しいタスクとなっている。
- リポジトリはEmbodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
- A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities [31.2]
医療におけるEmAIは、アルゴリズム、ロボティクス、バイオメディシンといった多様な分野にまたがる。 医療のためのEmAIの”脳”の概要を包括的に紹介し、認識、アクティベーション、計画、記憶のためのAIアルゴリズムを紹介します。 我々は、技術的な障壁を議論し、倫理的考察を探求し、医療におけるEmAIの将来を前方視する。
論文 参考訳(メタデータ) (Mon, 13 Jan 2025 16:35:52 GMT)
- 医療におけるEmbodiedAIのサーベイ。非常に広範な内容で引用数は800を超える
- SELU: Self-Learning Embodied MLLMs in Unknown Environments [35.6]
マルチモーダルな大言語モデル(MLLM)は、強力な視覚的理解と意思決定能力を示している。 本稿では,強化学習におけるアクター批判的自己学習パラダイムに触発された,SELUと呼ばれる新しいアクター批判的自己学習パラダイムを提案する。
論文 参考訳(メタデータ) (Fri, 04 Oct 2024 10:40:11 GMT)
- 「We propose a self-learning paradigm for embodied MLLMs, SELU, inspired by the actorcritic paradigm in reinforcement learning, which enables MLLMs to self-adapt to unknown environments.」というSelf-XでEmbodiedというとても未来を感じる研究。
- 環境に対するActorに対してMLLM Criticが評価するという、最近流行りのフレームワークだが、Actor MLLMとClitic MLLMをそれぞれfine tuningしていくことに特徴がある(同じMLLMを使うSELU Oneより優れているとのこと)
- Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.6]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。 私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。 ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文 参考訳(メタデータ) (Sun, 22 Sep 2024 00:30:11 GMT)
- 多様なシナリオでの具体的計画能力を測るマルチモーダルなデータセットとこれらを解くためにシンボリックエンジンを活用するNeuroGroundの提案。
- リポジトリはCan-Do! A Dataset for Embodied Planning with Large Multimodal Models (embodied-planning.github.io)