The Trinity of Consistency as a Defining Principle for General World Models

  • The Trinity of Consistency as a Defining Principle for General World Models [106.2]
    一般世界モデルは、客観的物理法則を学習し、シミュレートし、推論することができる。 本稿では,一般世界モデルに必要な基本的特性を定義するための理論的枠組みを提案する。 我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
    論文  参考訳(メタデータ)   (Thu, 26 Feb 2026 16:15:55 GMT)
  • 「This paper is organized to mirror the evolutionary path from specialized modules to unified world simulators. 」とサーベイ的な論文。「In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine.」と主張、ベンチマークを公開。
  • プロジェクトサイトはThe Trinity of Consistency as a Defining Principle for General World Models

MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks 

  • MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks [95.9]
    MiroFlowは、大規模言語モデル(LLM)のためのオープンソースのエージェントフレームワークである。 フレキシブルなオーケストレーションのためのエージェントグラフ、パフォーマンスを向上させるためのオプションの深い推論モード、安定した再現可能なパフォーマンスを保証するための堅牢な実行が含まれている。 GAIA、BrowseComp-EN/ZH、HLE、xBench-DeepSearch、FutureXなど、複数のエージェントベンチマークにおける最先端のパフォーマンスを一貫して達成している。
    論文  参考訳(メタデータ)   (Thu, 26 Feb 2026 09:45:04 GMT)
  • オープンソースのリサーチエージェント。readmeにjaがあるのも興味深い。公式の実装にくらべても高い性能を主張。Foundation tier 、 Agent tier、 Control tierの3層構成。
  • リポジトリはmiroflow/README_ja.md at main · MiroMindAI/miroflow · GitHub

MoDora: Tree-Based Semi-Structured Document Analysis System 

  • MoDora: Tree-Based Semi-Structured Document Analysis System [62.0]
    半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。 MoDora は半構造化文書解析のための LLM を利用したシステムである。 実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
    論文  参考訳(メタデータ)   (Thu, 26 Feb 2026 14:48:49 GMT)
  • 「Semi-structured documents integrate diverse interleaved data elements (e g , tables, charts, hierarchical paragraphs) arranged in various and often irregular layouts. These documents are widely observed across domains and account for a large portion of real- world data.」から始まる論文。実務上苦労する部分でもあるが、本論文では正攻法かつ凝ったアプローチで対応し、成果を出しているよう。
  • リポジトリはGitHub – weAIDB/MoDora

InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem

  • InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem [87.3]
    InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。 我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。 InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
    論文  参考訳(メタデータ)   (Mon, 16 Feb 2026 00:40:31 GMT)
  • 「We introduce InnoEval, a deep idea evaluation frame- work to achieve multi-dimensional, multi-perspective inno- vation assessment grounded in heterogeneous knowledge. We construct an idea evaluation dataset that supports point- wise, pair-wise, and group-wise assessment, incorporating quantitative, qualitative, and human evaluation strategies.」とのこと。凝ったパイプライン構成
  • リポジトリはGitHub – zjunlp/InnoEval: InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem、デモもある

What Makes a Good LLM Agent for Real-world Penetration Testing? 

  • What Makes a Good LLM Agent for Real-world Penetration Testing? [37.6]
    LLMをベースとした28の浸透試験システムを分析し,複雑性の増大を示す3つのベンチマークで5つの代表的実装を評価した。 我々は、B型障害がLLMの根本原因とほとんど変わらず、エージェントはリアルタイムなタスクの難易度推定を欠いていることを示す。 Excaliburは、強力なツールと困難な計画とを結合した浸透試験エージェントである。
    論文  参考訳(メタデータ)   (Thu, 19 Feb 2026 18:42:40 GMT)
  • ペネトレーションテストへのLLMAgent適用。
  • 「PENTEST- GPT V2 achieves 91% task completion on CTF benchmarks (49% improvement over baselines) and compromises 4 of 5 hosts on the GOAD Active Directory environment versus 2 for prior systems」という結果。この領域もAIとの連携が必須になっていて納得感がある(と同時に怖いとも感じる)

Towards a Science of AI Agent Reliability

  • Towards a Science of AI Agent Reliability [9.6]
    AIエージェントは、重要なタスクを実行するためにますますデプロイされる。 標準ベンチマークにおける精度の上昇は急速な進歩を示唆する一方で、多くのエージェントが実際に失敗し続けている。 エージェントの信頼性を4つの重要な次元(一貫性、堅牢性、予測可能性、安全性)に沿って分解する12のメトリクスを提案する。
    論文  参考訳(メタデータ)   (Wed, 18 Feb 2026 18:05:44 GMT)
  • 通常のパフォーマンスではなく信頼性の4軸(consistency, robustness, predictability, safety)からのベンチマーク比較、「14 models across two complementary benchmarks. Our results show that 18 months of rapid capability gains have produced only small improvements in reli- ability: models that are substantially more accurate remain inconsistent across runs, brittle to prompt rephrasings, and often fail to understand when they are likely to succeed.」とのこと。
  • プロジェクトサイトはHAL Reliability Dashboard

A Picture of Agentic Search 

  • A Picture of Agentic Search [32.9]
    情報検索は、もはや実施されていない仮定の下で行われる。 適応がなければ、検索モデルは人間も新規のユーザーセグメントも満たさない。 本研究では,エージェント検索拡張システムによって生成・消費されるすべてのデータを収集する手法を開発する。
    論文  参考訳(メタデータ)   (Thu, 19 Feb 2026 16:32:34 GMT)
  • 「Yet IR remains human-centred, with systems, evaluation metrics, user models, and datasets designed around human queries and behaviours. Consequently, IR operates under assumptions that no longer hold in practice, with changes to workload volumes, predictability, and querying behaviours.」という始まりに時代を感じる論文。「We release ASQ, the first dataset designed to support progress in IR for systems operating under agent-driven or mixed human–agent query streams.」とのこと。
  • リポジトリはGitHub – fpezzuti/ASQ: ASQ: Agentic Search Queryset. A dataset capturing RAG agents’ search behaviours.

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

  • AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines [43.3]
    AutoWebWorldは、制御可能で検証可能なWeb環境を合成するためのフレームワークである。 状態遷移が暗黙的な実際のWebサイトとは異なり、AutoWebWorldは、すべての状態、アクション、遷移ルールを明示的に定義している。 29の多様なWeb環境から11,663以上の認証トラジェクトリを生成し、1トラジェクトリあたり0.04ドルである。
    論文  参考訳(メタデータ)   (Sun, 15 Feb 2026 20:03:19 GMT)
  • 「Step 1 is to generate an FSM based on a multi-agent architecture. Step 2 uses coding agents to translate the output FSM into Synthesized Web. Step 3 uses BFS to explore the FSM graph and get all the potential trajectories. Step 4 filters these BFS-generated candidates by replaying each trajectory in the synthesized website with Playwright and retaining only those that execute all steps successfully and reach the intended goal state.」というパイプラインでのWEB環境生成・軌道合成フレームワーク。サイトのコピーにも使えるのではないかと思わなくもない・・・
  • プロジェクトサイトはAutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Computer-Using World Model  / WebWorld: A Large-Scale World Model for Web Agent Training 

  • Computer-Using World Model [58.6]
    我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。 テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
    論文  参考訳(メタデータ)   (Thu, 19 Feb 2026 13:48:29 GMT)
  • 「In this paper, we take a first step toward world modeling for computer use by introducing the Computer- Using World Model (CUWM) for real-world desktop software. We instantiate CUWM in the Microsoft Office suite, including Word, Excel, and PowerPoint, which are widely used productivity applications.」という特化型(?)の世界モデル。MSOfficeだと世界モデルにする必要があるのか謎ではあるが、有効な居面はありそう。
  • WebWorld: A Large-Scale World Model for Web Agent Training [59.6]
    大規模にトレーニングされた最初のオープンウェブシミュレータである textbfWebWorld シリーズを紹介する。 WebWorldは1M以上のオープンWebインタラクションをトレーニングし、推論、マルチフォーマットデータ、30以上のステップのロングホライゾンシミュレーションをサポートする。 WebWorld合成トラジェクトリでトレーニングされたQwen3-14Bは,WebArenaで+9.2%向上し,GPT-4oに匹敵する性能を示した。
    論文  参考訳(メタデータ)   (Mon, 16 Feb 2026 13:06:49 GMT)
  • こちらはWEB版で「We introduce WebWorld ( Figure 2), a large-scale open-web world model series (8B, 14B, and 32B) trained on 1M+ real-world trajectories (100× more than prior work) that supports reasoning, long- horizon simulation (30+ turns), and multiple input formats (A11y Tree, HTML, etc.). To ensure general- ization, we build a scalable, hierarchical data pipeline that expands coverage over prior work.」
  • リポジトリはhttps://github.com/QwenLM/WebWorld

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies 

  • EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies [61.3]
    対話型経済における継続的計画・実行意思決定のためのベンチマークであるEcoGymを紹介する。 EcoGymは、透明性のある長期的なエージェント評価のためのオープンなテストベッドとしてリリースされ、現実的な経済環境下でのコントロール可能性とユーティリティのトレードオフを研究するためのものだ。
    論文  参考訳(メタデータ)   (Wed, 11 Feb 2026 08:59:16 GMT)
  • 「EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies.」というベンチマーク。「Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions.」というのは興味深く得意・不得意があるよう(安定性が良くないという指摘もある)
  • リポジトリはGitHub – OPPO-PersonalAI/EcoGym: Official Repo for “EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies”