RoboOmni: Proactive Robot Manipulation in Omni-modal Context 

  • RoboOmni: Proactive Robot Manipulation in Omni-modal Context [165.1]
    我々は,音声対話や環境音,視覚的手がかりから意図を導出する,クロスモーダルな文脈指示を導入する。 目的認識,インタラクション確認,アクション実行を統一する,エンドツーエンドのOmni-Modal LLMに基づくフレームワークであるRoboOmniを提案する。 シミュレーションと実世界の設定の実験では、Robo OmniはテキストベースとASRベースのベースラインを越え、成功率、推論速度、意図認識、積極的に支援している。
    論文  参考訳(メタデータ)   (Mon, 27 Oct 2025 18:49:03 GMT)
  • 「There arises a key research question: Can a robot integrate cross-modal context, including speech, environmental audio, and visual observations, to proactively infer and verify user intent?」という疑問に対してのマルチモーダルモデル「we propose RoboOmni, an end-to-end omni-modal framework for manipulation that closes the loop of intent recognition, interaction confirmation, and action execution. Unlike prior approaches, RoboOmni supports direct speech interaction without ASR, infers latent commands by fusing human speech, environmental audio, and vision through spatiotemporal modeling, and verifies intent via interaction.」
  • プロジェクトサイトはRoboOmni: Proactive Robot Manipulation in Omni-modal Context

Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks 

  • Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks [23.2]
    大規模言語モデルは、長期のエージェントタスクにおいて課題に直面します。 既存のワーキングメモリメソッドは、エージェントのコアポリシーから切り離された外部メカニズムに依存している。 本稿では,一貫したポリシーの一部として明示的な編集操作を実行することで,エージェントが作業メモリを積極的に管理する新しいフレームワーク,Memory-as-Actionを提案する。
    論文  参考訳(メタデータ)   (Tue, 14 Oct 2025 15:29:57 GMT)
  • 「This work introduces Memory-as-Action, a framework that treats working memory management as an integral part of an agent’s decision-making process, rather than as an external module. By formalizing memory operations as explicit actions, a single policy can learn to interleave task reasoning with context curation.」というフレームワークの提案、作業領域管理と推論を同時管理する手法の優位性を主張。

InternVLA-M1, Vlaser

  • InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy [138.9]
    空間接地とロボット制御のための統合フレームワークであるInternVLA-M1を紹介する。 InternVLA-M1は、(i)2.3M以上の空間的推論データに基づく空間的グラウンドトレーニングと(ii)空間的に誘導された後トレーニングという、2段階のパイプラインを使用する。 結果: InternVLA-M1 は SimplerEnv Google Robot で+14.6%、WidowX で+17%、LIBERO Franka で+4.3% で、空間誘導なしでその変種を上回った。
    論文  参考訳(メタデータ)   (Wed, 15 Oct 2025 17:30:05 GMT)
  • Shanghai AI LaboratoryによるVLAフレームワーク、「On SimplerEnv (Google Robot and WidowX), InternVLA-M1 achieves a new state-of-the-art, surpassing its variant by improving the average success rate by up to +5.9% and +9.8%, respectively. It also demonstrates strong spatial reasoning capabilities across box, point, and trace prediction tasks.」。
  • アーキテクチャは「InternVLA-M1 employs the Qwen2.5-VL- 3B-instruct Bai et al (2025a) as the multimodal encoder for System 2, which is to capture spatial priors. It adopts the diffusion policy Chi et al (2023) (86 M) as the Action Expert (System 1, the fast executor), which effectively models embodiment-specific control. This expert is built on the DINOv2 visual encoder Oquab et al (2023) (21 M) and a lightweight state encoder (0.4 M), forming a compact vision–action model. In total, InternVLA-M1 comprises approximately 4.1B parameters.」と公開モデルの意義を感じる構成。spatial promptingをコアとしてSystem2 → System1を活用する構成。
  • 「To bridge the gap between VLM and VLA, we introduce a Post-Pre-Training phase, where large-scale simulated data is used to pre-train the VLA after VLM pre-training. This stage initializes the action head and facilitates the learning of action representations.」というアプローチも注目。
  • リポジトリはGitHub – InternRobotics/InternVLA-M1: InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
  • Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.5]
    Vlaser – 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。 Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。 提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
    論文  参考訳(メタデータ)   (Mon, 13 Oct 2025 05:51:22 GMT)
  • こちらはInternVL3 ベース、「In this work, we reveal that current embodied reasoning benchmarks exhibit a significant domain gap when compared to real-world robots. This core domain shift arises from the observation that robots have a fundamentally different viewpoint from that of internet datasets.」とデータの重要性を強調。
  • リポジトリはGitHub – OpenGVLab/Vlaser: Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback

  • LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.8]
    AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。 本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
    論文  参考訳(メタデータ)   (Mon, 02 Jun 2025 22:36:02 GMT)
  • LAM SIMULATOR, a comprehensive frame- work designed for online exploration of agentic tasks with high-quality feedback

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action

  • TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.6]
    複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。 推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。 このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
    論文  参考訳(メタデータ)   (Sat, 07 Dec 2024 00:42:04 GMT)
  • 「Our TACO model is able to output a Chain-of Thought-and-Action (CoTA) and answer challenging questions based on the thoughts and action outputs」というモデルの提案。マルチモーダルなAction付きのモデル。GPT-4oなどを使って構築した合成データを活用とのこと。
  • プロジェクトサイトはTACO

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

  • OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.4]
    OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。 現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
    論文  参考訳(メタデータ)   (Wed, 30 Oct 2024 17:10:19 GMT)
  • GUIを対象としたFoundation Action Modelの提案、Anthropicの発表もあって盛り上がっている領域。性能は「although GPT-4o with OS-Atlas-Base as the grounding module still lags behind human performance, it significantly outperforms other grounding methods such as SeeClick and Set-of-Mark (SoM)」とのこと。
  • リポジトリはOS-Atlas Homepage

Latent Action Pretraining from Videos

  • Latent Action Pretraining from Videos [156.9]
    一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。 本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
    論文  参考訳(メタデータ)   (Tue, 15 Oct 2024 16:28:09 GMT)
  • インターネットにあるようなビデオデータからVLAを構築する手法の提案、「Across three benchmarks spanning both simulation and real-world robot experiments, we show that our method significantly improves transfer to downstream tasks compared to existing approaches.」とのこと
  • プロジェクトサイトはLAPA