コンテンツへスキップ
- Towards a Science of AI Agent Reliability [9.6]
AIエージェントは、重要なタスクを実行するためにますますデプロイされる。 標準ベンチマークにおける精度の上昇は急速な進歩を示唆する一方で、多くのエージェントが実際に失敗し続けている。 エージェントの信頼性を4つの重要な次元(一貫性、堅牢性、予測可能性、安全性)に沿って分解する12のメトリクスを提案する。
論文 参考訳(メタデータ) (Wed, 18 Feb 2026 18:05:44 GMT)
- 通常のパフォーマンスではなく信頼性の4軸(consistency, robustness, predictability, safety)からのベンチマーク比較、「14 models across two complementary benchmarks. Our results show that 18 months of rapid capability gains have produced only small improvements in reli- ability: models that are substantially more accurate remain inconsistent across runs, brittle to prompt rephrasings, and often fail to understand when they are likely to succeed.」とのこと。
- プロジェクトサイトはHAL Reliability Dashboard
- A Picture of Agentic Search [32.9]
情報検索は、もはや実施されていない仮定の下で行われる。 適応がなければ、検索モデルは人間も新規のユーザーセグメントも満たさない。 本研究では,エージェント検索拡張システムによって生成・消費されるすべてのデータを収集する手法を開発する。
論文 参考訳(メタデータ) (Thu, 19 Feb 2026 16:32:34 GMT)
- 「Yet IR remains human-centred, with systems, evaluation metrics, user models, and datasets designed around human queries and behaviours. Consequently, IR operates under assumptions that no longer hold in practice, with changes to workload volumes, predictability, and querying behaviours.」という始まりに時代を感じる論文。「We release ASQ, the first dataset designed to support progress in IR for systems operating under agent-driven or mixed human–agent query streams.」とのこと。
- リポジトリはGitHub – fpezzuti/ASQ: ASQ: Agentic Search Queryset. A dataset capturing RAG agents’ search behaviours.
- AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines [43.3]
AutoWebWorldは、制御可能で検証可能なWeb環境を合成するためのフレームワークである。 状態遷移が暗黙的な実際のWebサイトとは異なり、AutoWebWorldは、すべての状態、アクション、遷移ルールを明示的に定義している。 29の多様なWeb環境から11,663以上の認証トラジェクトリを生成し、1トラジェクトリあたり0.04ドルである。
論文 参考訳(メタデータ) (Sun, 15 Feb 2026 20:03:19 GMT)
- 「Step 1 is to generate an FSM based on a multi-agent architecture. Step 2 uses coding agents to translate the output FSM into Synthesized Web. Step 3 uses BFS to explore the FSM graph and get all the potential trajectories. Step 4 filters these BFS-generated candidates by replaying each trajectory in the synthesized website with Playwright and retaining only those that execute all steps successfully and reach the intended goal state.」というパイプラインでのWEB環境生成・軌道合成フレームワーク。サイトのコピーにも使えるのではないかと思わなくもない・・・
- プロジェクトサイトはAutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines
- Computer-Using World Model [58.6]
我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。 テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
論文 参考訳(メタデータ) (Thu, 19 Feb 2026 13:48:29 GMT)
- 「In this paper, we take a first step toward world modeling for computer use by introducing the Computer- Using World Model (CUWM) for real-world desktop software. We instantiate CUWM in the Microsoft Office suite, including Word, Excel, and PowerPoint, which are widely used productivity applications.」という特化型(?)の世界モデル。MSOfficeだと世界モデルにする必要があるのか謎ではあるが、有効な居面はありそう。
- WebWorld: A Large-Scale World Model for Web Agent Training [59.6]
大規模にトレーニングされた最初のオープンウェブシミュレータである textbfWebWorld シリーズを紹介する。 WebWorldは1M以上のオープンWebインタラクションをトレーニングし、推論、マルチフォーマットデータ、30以上のステップのロングホライゾンシミュレーションをサポートする。 WebWorld合成トラジェクトリでトレーニングされたQwen3-14Bは,WebArenaで+9.2%向上し,GPT-4oに匹敵する性能を示した。
論文 参考訳(メタデータ) (Mon, 16 Feb 2026 13:06:49 GMT)
- こちらはWEB版で「We introduce WebWorld ( Figure 2), a large-scale open-web world model series (8B, 14B, and 32B) trained on 1M+ real-world trajectories (100× more than prior work) that supports reasoning, long- horizon simulation (30+ turns), and multiple input formats (A11y Tree, HTML, etc.). To ensure general- ization, we build a scalable, hierarchical data pipeline that expands coverage over prior work.」
- リポジトリはhttps://github.com/QwenLM/WebWorld
- EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies [61.3]
対話型経済における継続的計画・実行意思決定のためのベンチマークであるEcoGymを紹介する。 EcoGymは、透明性のある長期的なエージェント評価のためのオープンなテストベッドとしてリリースされ、現実的な経済環境下でのコントロール可能性とユーティリティのトレードオフを研究するためのものだ。
論文 参考訳(メタデータ) (Wed, 11 Feb 2026 08:59:16 GMT)
- 「EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies.」というベンチマーク。「Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions.」というのは興味深く得意・不得意があるよう(安定性が良くないという指摘もある)
- リポジトリはGitHub – OPPO-PersonalAI/EcoGym: Official Repo for “EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies”
- Data Science and Technology Towards AGI Part I: Tiered Data Management [53.6]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。 我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。 提案手法の有効性を実証研究により検証する。
論文 参考訳(メタデータ) (Mon, 09 Feb 2026 18:47:51 GMT)
- データの軸から見たAGI実現への分析、「Our results suggest that effective data management should be treated as a first-class engineering problem, rather than an auxiliary preprocessing step.」はその通りだと思う。
- リポジトリはUltraData – a openbmb Collection
- Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents [56.7]
この記事では、最新のネイティブGUIエージェントモデルであるGUI-Owl-1.5を紹介する。 クラウドとエッジのコラボレーションとリアルタイムのインタラクションを実現するために、さまざまなプラットフォーム(デスクトップ、モバイル、ブラウザなど)をサポートしている。 オープンソースモデル上で20以上のGUIベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (Sun, 15 Feb 2026 01:52:19 GMT)
- AlibabaによるGUIエージェントモデル。「Built on Qwen3-VL and powered by a scalable data pipeline and a multi-stage training paradigm, GUI-Owl1.5 comprises a family of foundation GUI models covering a full range of sizes, including instruct/thinking variants at 2B, 4B, 8B, 32B, and 235B-A22B.」とのこと。
- リポジトリはGitHub – X-PLUG/MobileAgent: Mobile-Agent: The Powerful GUI Agent Family
- GLM-5: from Vibe Coding to Agentic Engineering [223.2]
GLM-5は,バイブ符号化のパラダイムをエージェント工学に移行するために設計された次世代基盤モデルである。 GLM-5は、前任者のエージェント、推論、コーディング(ARC)能力に基づいており、長いコンテキストの忠実さを維持しながら、トレーニングと推論のコストを大幅に削減するためにDSAを採用している。
論文 参考訳(メタデータ) (Tue, 17 Feb 2026 17:50:56 GMT)
- GLMの最新モデル、744B / 40B Activeの構成、使用した学習データ量も28.5TBに増加。フロンティアモデルと呼べる性能。先週はQwen/Qwen3.5-397B-A17B · Hugging Faceも話題となった。商用モデルでもGemini 3.1 Pro、Sonnet 4.6の公開もあり、また、OpenAIの対抗も噂されている。性能の向上が続いている。
- タイトルの「from Vibe Coding to Agentic Engineering」は「We describe the transition from vibe coding (human prompting) to agentic engineering. In vibe coding, a human prompts an AI model to write code. In agentic engineering, AI agents write the code themselves. They plan, implement, and iterate.」と解説されている。
- リポジトリはGitHub – zai-org/GLM-5: GLM-5: From Vibe Coding to Agentic Engineering
- World Action Models are Zero-shot Policies [111.9]
本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。 ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。 ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。
論文 参考訳(メタデータ) (Tue, 17 Feb 2026 15:04:02 GMT)
- 「By jointly predicting video and action, World Action Models (WAMs) inherit world physics priors that enable 1) effective learning from diverse, non-repetitive data, 2) open-world generalization,3) cross-embodiment learning from video-only data, and 4) few-shot adaptation to new robots.」とのことで、ビデオ合成を活用したもの。ゆえに「 we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz.」と高速改善。
- プロジェクトサイトはDreamZero: World Action Models are Zero-shot Policies
- Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution [32.9]
我々は、高速かつスムーズなリアルタイム実行のために最適化された高度な視覚言語アクション(VLA)モデルであるXiaomi-Robotics-0を紹介する。 Xiaomi-Robotics-0は、大規模なクロス・エボディメント・ロボット軌道と視覚言語データに事前訓練された。 我々はXiaomi-Robotics-0をシミュレーションベンチマークで広範囲に評価し、正確で巧妙なバイマニュアル操作を必要とする2つの挑戦的な実ロボットタスクについて検討した。
論文 参考訳(メタデータ) (Fri, 13 Feb 2026 07:30:43 GMT)
- XiaomiによるVLAモデル。「Our robot trajectory data are sourced from multiple open-sourced robot datasets (e g , DROID [23] and MolmoAct [26]) as well as in-house data collected by ourselves. Our in-house data consists of teleoperated trajectories for two challenging tasks: Lego Disassembly and Towel Folding. In total, we collected 338 and 400 hours of data for these two tasks, respectively.」とこちらはデータを作りにいっている。
- リポジトリはXiaomi-Robotics-0