- EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies [61.3]
対話型経済における継続的計画・実行意思決定のためのベンチマークであるEcoGymを紹介する。 EcoGymは、透明性のある長期的なエージェント評価のためのオープンなテストベッドとしてリリースされ、現実的な経済環境下でのコントロール可能性とユーティリティのトレードオフを研究するためのものだ。
論文 参考訳(メタデータ) (Wed, 11 Feb 2026 08:59:16 GMT) - 「EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies.」というベンチマーク。「Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions.」というのは興味深く得意・不得意があるよう(安定性が良くないという指摘もある)
- リポジトリはGitHub – OPPO-PersonalAI/EcoGym: Official Repo for “EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies”
投稿者: staka
MoltbookやOpenClawに関する分析
最近よくバズるMoltbookやOpenClawに言及するまたは対象とした論文が複数出ていた。対応(?)が速くて驚き。Fugu-MT: arxivの論文翻訳(検索結果: Moltbook)、Fugu-MT: arxivの論文翻訳(検索結果: OpenClaw) はこれからも増えていくはず。
- Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5 [61.8]
この技術レポートは、サイバー犯罪、説得と操作、戦略上の詐欺、制御されていないAIR&D、自己複製の5つの重要な側面について、更新されきめ細かな評価を提示する。 この作業は、現在のAIフロンティアのリスクに対する理解を反映し、これらの課題を軽減するための集団行動を促します。
論文 参考訳(メタデータ) (Mon, 16 Feb 2026 04:30:06 GMT) - リスク整理、「3.4.4 Interactive agents’ autonomous self-modification on Openclaw and Moltbook」で取り扱われる。
- Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook [23.9]
Moltbookは、自律エージェントがオープンエンドで継続的に進化するオンライン社会に参加する、もっともらしい未来のシナリオを近似している。 本稿では,このAIエージェント・ソサエティの大規模システム診断について紹介する。
論文 参考訳(メタデータ) (Sun, 15 Feb 2026 20:15:28 GMT) - 「 Our results show that large-scale interaction and dense connectivity alone do not induce socialization, revealing a fundamental gap between scalability and social integration in current agent societies.」と指摘
- プロジェクトサイトはGitHub – tianyi-lab/Moltbook_Socialization: Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook
- A Trajectory-Based Safety Audit of Clawdbot (OpenClaw) [77.2]
6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。 我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断とヒューマンレビューの両方を使用して安全性を評価する。
論文 参考訳(メタデータ) (Mon, 16 Feb 2026 00:33:02 GMT) - OpenClawの分析、この手のツール設計は難しいなという思いが強くなる。「First, Clawdbot’s memory is persisted as plain Markdown files in the agent workspace, so mistaken inferences or injected instructions can be written to disk and then carried across sessions as durable state (OpenClaw Documentation, 2026h). Second, Clawdbot’s extensibility model encourages the use of “skills” that are themselves Markdown instruction bundles, which can embed tool-call recipes and command-style guidance and therefore expand the prompt-injection and supply-chain attack surface beyond the immediate user prompt.」
- リポジトリはGitHub – tychenn/clawdbot_report
- The Rise of AI Agent Communities: Large-Scale Analysis of Discourse and Interaction on Moltbook [62.3]
MoltbookはRedditに似たソーシャルプラットフォームで、AIエージェントが投稿を作成し、コメントや返信を通じて他のエージェントと対話する。 ローンチから約5日後に収集された公開APIスナップショットを使用して、AIエージェントが何を議論しているか、どのように投稿するか、どのように相互作用するのかという3つの研究課題に対処する。 エージェントの執筆は、主に中立であり、コミュニティエンゲージメントや支援指向のコンテンツに肯定性があることが示される。
論文 参考訳(メタデータ) (Fri, 13 Feb 2026 05:28:31 GMT) - Moltbookの分析、「Affectively, agent communication is predominantly neutral, with positive sentiment selectively concentrated in community-oriented onboarding and engagement practices. Structurally, the interaction network ex- hibits a sparse, hub-dominated topology characterized by low reci- procity. Although the platform features resemble patterns observed in human online communities like Reddit, the interactions lack sustained, reciprocal dialogue.」と指摘。
When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation
- When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation [80.7]
主要モデル開発者のテクニカルレポートから選択した60のLarge Language Model (LLM)ベンチマークのベンチマーク飽和を分析した。 分析の結果、ベンチマークのほぼ半数が飽和しており、ベンチマークの年齢とともに上昇していることがわかった。 専門家によるベンチマークは、クラウドソースのベンチマークよりも飽和に抵抗する。
論文 参考訳(メタデータ) (Wed, 18 Feb 2026 16:51:37 GMT) - 多くのベンチマークが急速に解かれるように感じる状況について整理した論文。「Benchmarks with held-out or private test data do not exhibit systematically lower saturation than public ones. While contamination and memorization are well- documented risks (Zhou et al , 2023b; Balloccu et al , 2024; Deng et al , 2024; Sainz et al , 2024), secrecy alone does not prevent compression once distributional characteristics become widely known.」というのは若干意外だった。
- プロジェクトサイトはEvalEval Coalition | We are a researcher community developing scientifically grounded research outputs and robust deployment infrastructure for broader impact evaluations.
Data Science and Technology Towards AGI Part I: Tiered Data Management
- Data Science and Technology Towards AGI Part I: Tiered Data Management [53.6]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。 我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。 提案手法の有効性を実証研究により検証する。
論文 参考訳(メタデータ) (Mon, 09 Feb 2026 18:47:51 GMT) - データの軸から見たAGI実現への分析、「Our results suggest that effective data management should be treated as a first-class engineering problem, rather than an auxiliary preprocessing step.」はその通りだと思う。
- リポジトリはUltraData – a openbmb Collection
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
- Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents [56.7]
この記事では、最新のネイティブGUIエージェントモデルであるGUI-Owl-1.5を紹介する。 クラウドとエッジのコラボレーションとリアルタイムのインタラクションを実現するために、さまざまなプラットフォーム(デスクトップ、モバイル、ブラウザなど)をサポートしている。 オープンソースモデル上で20以上のGUIベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (Sun, 15 Feb 2026 01:52:19 GMT) - AlibabaによるGUIエージェントモデル。「Built on Qwen3-VL and powered by a scalable data pipeline and a multi-stage training paradigm, GUI-Owl1.5 comprises a family of foundation GUI models covering a full range of sizes, including instruct/thinking variants at 2B, 4B, 8B, 32B, and 235B-A22B.」とのこと。
- リポジトリはGitHub – X-PLUG/MobileAgent: Mobile-Agent: The Powerful GUI Agent Family
GLM-5: from Vibe Coding to Agentic Engineering
- GLM-5: from Vibe Coding to Agentic Engineering [223.2]
GLM-5は,バイブ符号化のパラダイムをエージェント工学に移行するために設計された次世代基盤モデルである。 GLM-5は、前任者のエージェント、推論、コーディング(ARC)能力に基づいており、長いコンテキストの忠実さを維持しながら、トレーニングと推論のコストを大幅に削減するためにDSAを採用している。
論文 参考訳(メタデータ) (Tue, 17 Feb 2026 17:50:56 GMT) - GLMの最新モデル、744B / 40B Activeの構成、使用した学習データ量も28.5TBに増加。フロンティアモデルと呼べる性能。先週はQwen/Qwen3.5-397B-A17B · Hugging Faceも話題となった。商用モデルでもGemini 3.1 Pro、Sonnet 4.6の公開もあり、また、OpenAIの対抗も噂されている。性能の向上が続いている。
- タイトルの「from Vibe Coding to Agentic Engineering」は「We describe the transition from vibe coding (human prompting) to agentic engineering. In vibe coding, a human prompts an AI model to write code. In agentic engineering, AI agents write the code themselves. They plan, implement, and iterate.」と解説されている。
- リポジトリはGitHub – zai-org/GLM-5: GLM-5: From Vibe Coding to Agentic Engineering
World Action Models are Zero-shot Policies
- World Action Models are Zero-shot Policies [111.9]
本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。 ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。 ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。
論文 参考訳(メタデータ) (Tue, 17 Feb 2026 15:04:02 GMT) - 「By jointly predicting video and action, World Action Models (WAMs) inherit world physics priors that enable 1) effective learning from diverse, non-repetitive data, 2) open-world generalization,3) cross-embodiment learning from video-only data, and 4) few-shot adaptation to new robots.」とのことで、ビデオ合成を活用したもの。ゆえに「 we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz.」と高速改善。
- プロジェクトサイトはDreamZero: World Action Models are Zero-shot Policies
- Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution [32.9]
我々は、高速かつスムーズなリアルタイム実行のために最適化された高度な視覚言語アクション(VLA)モデルであるXiaomi-Robotics-0を紹介する。 Xiaomi-Robotics-0は、大規模なクロス・エボディメント・ロボット軌道と視覚言語データに事前訓練された。 我々はXiaomi-Robotics-0をシミュレーションベンチマークで広範囲に評価し、正確で巧妙なバイマニュアル操作を必要とする2つの挑戦的な実ロボットタスクについて検討した。
論文 参考訳(メタデータ) (Fri, 13 Feb 2026 07:30:43 GMT) - XiaomiによるVLAモデル。「Our robot trajectory data are sourced from multiple open-sourced robot datasets (e g , DROID [23] and MolmoAct [26]) as well as in-house data collected by ourselves. Our in-house data consists of teleoperated trajectories for two challenging tasks: Lego Disassembly and Towel Folding. In total, we collected 338 and 400 hours of data for these two tasks, respectively.」とこちらはデータを作りにいっている。
- リポジトリはXiaomi-Robotics-0
Self-evolving Embodied AI
- Self-evolving Embodied AI [31.5]
エンボディード・人工知能(英語: Embodied Artificial Intelligence、AI)は、エージェントとその環境によって、能動的知覚、具体的認知、行動相互作用を通じて形成されるインテリジェントなシステムである。 本稿では,エージェントが変化状態と環境に基づいて動作する新たなパラダイムである,自己進化型エンボディAIを紹介する。
論文 参考訳(メタデータ) (Wed, 04 Feb 2026 10:40:34 GMT) - Embodiedかつ自己進化するAIに関する紹介、サーベイ。夢物語ではなくなっている点に驚く。
CauScale: Neural Causal Discovery at Scale
- CauScale: Neural Causal Discovery at Scale [47.4]
因果発見は、科学AIやデータ分析などのデータ駆動分野の進展に不可欠である。 最大1000ノードのグラフに推論をスケールする、効率的な因果探索のために設計されたニューラルネットワークであるCauScaleを提示する。
論文 参考訳(メタデータ) (Mon, 09 Feb 2026 13:21:32 GMT) - 「we present CauScale, a neural architecture designed for efficient causal discovery that scales inference to graphs with up to 1000 nodes.」と大規模にスケール可能な因果発見のためのモデルの提案。
- リポジトリはGitHub – OpenCausaLab/CauScale: Implementation for paper CauScale: Neural Causal Discovery at Scale.
CausalAgent: A Conversational Multi-Agent System for End-to-End Causal Inference
- CausalAgent: A Conversational Multi-Agent System for End-to-End Causal Inference [36.9]
CausalAgentは、エンドツーエンドの因果推論のための対話型マルチエージェントシステムである。 新しいユーザ中心の人間-AIコラボレーションパラダイムとして、CausalAgentは分析ワークフローを明示的にモデル化している。
論文 参考訳(メタデータ) (Thu, 12 Feb 2026 03:36:29 GMT) - 「We presented CausalAgent, a conversational multi-agent system for end-to-end causal inference. The system integrates MAS, RAG, and multiple causal algorithms encapsulated by the MCP protocol.」
- リポジトリはGitHub – DMIRLAB-Group/CausalAgent: A Conversational Multi-Agent System for End-to-End Causal Inference.