コンテンツへスキップ
- World Action Models are Zero-shot Policies [111.9]
本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。 ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。 ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。
論文 参考訳(メタデータ) (Tue, 17 Feb 2026 15:04:02 GMT)
- 「By jointly predicting video and action, World Action Models (WAMs) inherit world physics priors that enable 1) effective learning from diverse, non-repetitive data, 2) open-world generalization,3) cross-embodiment learning from video-only data, and 4) few-shot adaptation to new robots.」とのことで、ビデオ合成を活用したもの。ゆえに「 we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz.」と高速改善。
- プロジェクトサイトはDreamZero: World Action Models are Zero-shot Policies
- Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution [32.9]
我々は、高速かつスムーズなリアルタイム実行のために最適化された高度な視覚言語アクション(VLA)モデルであるXiaomi-Robotics-0を紹介する。 Xiaomi-Robotics-0は、大規模なクロス・エボディメント・ロボット軌道と視覚言語データに事前訓練された。 我々はXiaomi-Robotics-0をシミュレーションベンチマークで広範囲に評価し、正確で巧妙なバイマニュアル操作を必要とする2つの挑戦的な実ロボットタスクについて検討した。
論文 参考訳(メタデータ) (Fri, 13 Feb 2026 07:30:43 GMT)
- XiaomiによるVLAモデル。「Our robot trajectory data are sourced from multiple open-sourced robot datasets (e g , DROID [23] and MolmoAct [26]) as well as in-house data collected by ourselves. Our in-house data consists of teleoperated trajectories for two challenging tasks: Lego Disassembly and Towel Folding. In total, we collected 338 and 400 hours of data for these two tasks, respectively.」とこちらはデータを作りにいっている。
- リポジトリはXiaomi-Robotics-0
- Self-evolving Embodied AI [31.5]
エンボディード・人工知能(英語: Embodied Artificial Intelligence、AI)は、エージェントとその環境によって、能動的知覚、具体的認知、行動相互作用を通じて形成されるインテリジェントなシステムである。 本稿では,エージェントが変化状態と環境に基づいて動作する新たなパラダイムである,自己進化型エンボディAIを紹介する。
論文 参考訳(メタデータ) (Wed, 04 Feb 2026 10:40:34 GMT)
- Embodiedかつ自己進化するAIに関する紹介、サーベイ。夢物語ではなくなっている点に驚く。
- IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.2]
内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。 大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。 本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
論文 参考訳(メタデータ) (Sun, 08 Feb 2026 12:28:29 GMT)
- 「in this paper, we investigate whether large language models can assist in the discovery of instrumental variables through a structured, multi-agent framework in which LLM-based agents propose, critique, and refine candidate instruments.」とinstrumental variablesを発見するためのマルチエージェントシステムの提案。「Our empirical results on real-world data demonstrate that LLM-suggested instruments show meaningful consistency, providing a first step to- ward principled use of LLMs in variable discovery.」と一定有望な結果。
- LLaDA2.1: Speeding Up Text Diffusion via Token Editing [72.9]
我々は、復号速度と生成品質のトレードオフを超越するパラダイムシフトであるLLaDA2.1を発表した。 従来のマスク・ツー・Token(M2T)方式にT2T編集をシームレスに織り込むことで,共同でしきい値復号方式を導入する。 この構造的革新は、2つの異なるペルソナをもたらす: Speedy Mode (S Mode) は、M2T閾値を大胆に下げ、出力を洗練させるためにT2Tに依存しながら従来の制約を回避し、優れたベンチマークを確保するために保守的なしきい値に傾くQuality Mode (Q Mode) である。
論文 参考訳(メタデータ) (Tue, 10 Feb 2026 07:11:18 GMT)
- 高速な生成が可能なDiffusion model、LLaDAの2.1
- リポジトリはLLaDA2.1 – a inclusionAI Collection
- MemoryLLM: Plug-n-Play Interpretable Feed-Forward Memory for Transformers [22.5]
MemoryLLMは、フィードフォワードモジュールを自己アテンションから切り離すことを目的としている。 トークンの埋め込みを使って、自己注意から独立してトレーニングする。 システムは、文脈のないトークン単位の埋め込みでFFNをトレーニングすることによるパフォーマンスギャップを橋渡しする。
論文 参考訳(メタデータ) (Fri, 30 Jan 2026 23:25:20 GMT)
- 新たな構造によるメモリ機構の分析、「We found that knowledge associated with lexically and semantically similar tokens are indexed across similar memory locations within FFNs. This knowledge is crucial for the performance of retrieval-based tasks.」とのこと。
- 一般的に用いられる構造になるかは不明としてこの手の研究は面白い。
- CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion [26.5]
エージェントコーディングは、例えばコマンドラインインターフェース(CLI)のような実行環境と対話するエージェントを必要とする。 本研究では,環境履歴をシミュレートし,探索するためにエージェントを採用することを提案する。 提案手法はCLI-Gymと命名され, 環境集約型タスク1,655件が抽出され, この種のコレクションとしては最大である。
論文 参考訳(メタデータ) (Wed, 11 Feb 2026 16:22:18 GMT)
- 「We introduce the first publicly available pipeline CLI- Gym for scalable derivation of environment-intensive tasks in agentic coding. • A collection of 1,655 environment-intensive tasks is built from 29 open-source repositories, serving as a good data source for LLM fine-tuning. 」「With a pilot study on fine-tuning with only 291 successful trajectories, we demonstrate highly competitive performance on the Terminal-Bench.」とCLI関連のデータ収集とそれを用いた強化に関する報告。MCPよりもコンテキスト的に有利という指摘もあり注目されているLLM/LRMの強化方法。(ベンチマーク的には意外と厳しい結果になることもしばしばだが・・・)
- リポジトリはGitHub – LiberCoders/CLI-Gym: Official Implementation of “CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion”
- CUA-Skill: Develop Skills for Computer Using Agent [48.9]
コンピュータを利用したエージェントスキルベースであるCUA-Skillを導入し,人間のコンピュータ利用知識をスキルとして符号化する。 我々は、動的スキル検索、引数のインスタンス化、メモリ認識障害回復をサポートする、エンドツーエンドのコンピュータ利用エージェントであるCUA-Skill Agentを構築した。 その結果、CUA-Skillは、エンドツーエンドのベンチマークで実行の成功率と堅牢性を大幅に向上することを示した。
論文 参考訳(メタデータ) (Mon, 02 Feb 2026 23:11:55 GMT)
- 「How can we build a scalable and transferable skill base for desktop environments that captures human procedural knowledge and enables reliable and capable CUAs? In this work, we answer this question by introducing CUA- Skill, the first systematic agentic skill library designed for desktop computer use.」とSkillsを用いたCUA、かなり有効に見える。
- リポジトリはCUA-Skill