What Breaks Embodied AI Security:LLM Vulnerabilities, CPS Flaws,or Something Else? 

  • What Breaks Embodied AI Security:LLM Vulnerabilities, CPS Flaws,or Something Else? [28.1]
    身体化されたAIシステムは、制御された環境から安全クリティカルな現実世界へのデプロイへと急速に移行している。 非身体化AIとは異なり、インボディードインテリジェンスにおける失敗は、不可逆的な物理的結果をもたらす。 我々は,システムレベルのミスマッチから,重大な障害が生じることを論じる。
    論文  参考訳(メタデータ)   (Thu, 19 Feb 2026 13:29:00 GMT)
  • Embodied AIに特徴的な安全性に関するサーベイ。「we identify four core insights that explain why embodied AI is fundamentally harder to secure: (i) semantic correctness does not imply physical safety, as language-level reasoning abstracts away geometry, dynamics, and contact constraints; (ii) identical actions can lead to drastically different outcomes across physical states due to nonlinear dynamics and state uncertainty; (iii) small errors propagate and amplify across tightly coupled perception–decision–action loops; and (iv) safety is not compositional across time or system layers, enabling locally safe decisions to accumulate into globally unsafe behavior. 」

Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems

  • Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems [5.1]
    年齢推定システムは、年齢制限のあるオンラインコンテンツのためのゲートキーパーとしてますます展開されている。 ヒゲを含むシンプルで家庭で利用できる化粧品の変化は、AI年齢推定者が未成年者を成人に分類する原因となるかどうかを考察する。 VLM画像エディターを用いて10歳から21歳までの人物の329枚の顔画像に対する身体的攻撃をシミュレートした。
    論文  参考訳(メタデータ)   (Mon, 23 Feb 2026 06:13:52 GMT)
  • Cosmetic Attacks…、効果はありそうではある。

Test-Time Computing for Referring Multimodal Large Language Models

  • Test-Time Computing for Referring Multimodal Large Language Models [143.5]
    そこで我々は,新しいテスト時間適応フレームワークである ControlMLLM++ を提案する。 学習可能な視覚的プロンプトを凍ったマルチモーダルな大言語モデルに注入する。
    論文  参考訳(メタデータ)   (Mon, 23 Feb 2026 04:42:10 GMT)
  • 「We introduce ControlMLLM++, a novel test- time latent variable optimization framework that injects explicit visual prompts into frozen pre-trained MLLMs to enable referring capabilities without additional training.」とのこと。「ControlMLLM++ falls into this category, performing test-time optimization of latent perturbations to visual tokens to steer attention maps towards the referred region r.」というアプローチ。
  • リポジトリはGitHub – mrwu-mac/ControlMLLM: [NeurIPS2024] Repo for the paper `ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models’

Counterfactual Simulation Training for Chain-of-Thought Faithfulness 

  • Counterfactual Simulation Training for Chain-of-Thought Faithfulness [46.3]
    我々は,CST(Counterfactual Simulation Training)と呼ばれるトレーニング手法を導入する。 CSTは、シミュレーターが偽の入力に対してモデルの出力を正確に予測できるCoTに報酬を与える。 最大235Bパラメータのモデルによる実験により、CSTはキューベースのカウンターファクトの精度を大幅に向上できることが示された。
    論文  参考訳(メタデータ)   (Tue, 24 Feb 2026 09:15:30 GMT)
  • CoTの信頼性を向上させるため「we introduce a training method called Counterfactual Simulation Training (CST), which aims to improve CoT faithfulness by rewarding CoTs that enable a simulator to accurately predict a model’s outputs over counterfactual inputs. We apply CST in two settings: (1) CoT monitoring with cue-based counterfactuals, to detect when models rely on spurious features, reward hack, or are sycophantic, and (2) counterfactual simulation over generic model-based counterfactuals, to encourage models to produce more faithful, generalizable reasoning in the CoT.」というアプローチを提案。Reasoningの過程をコントロールするのも重要なのはそうだと思う。
  • リポジトリはGitHub – peterbhase/counterfactual-simulation-training: Codebase for paper: “Counterfactual Simulation Training for Chain-of-Thought Faithfulness”

DREAM: Deep Research Evaluation with Agentic Metrics 

  • DREAM: Deep Research Evaluation with Agentic Metrics [21.6]
    本稿では,DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。 DREAM構造評価は、クエリ非依存のメトリクスとツール呼び出しエージェントが生成する適応的なメトリクスを組み合わせた評価プロトコルを用いて行われる。 制御された評価は、DREAMが既存のベンチマークよりも事実や時間的劣化にかなり敏感であることを示している。
    論文  参考訳(メタデータ)   (Sat, 21 Feb 2026 19:14:31 GMT)
  • 「DREAM structures assessment through an evaluation protocol combining query-agnostic metrics with adaptive metrics generated by a tool-calling agent, enabling temporally aware coverage, grounded verification, and systematic reasoning probes.」とファクトチェックを思い出す評価アプローチ。「We demonstrate that current LLM-as-a-judge and reference-based benchmarks are often blinded by surface-level fluency and citation alignment, failing to detect deep-seated defects in factual correctness, temporal validity, and logical reasoning.」はそうだろうと思う。

The Trinity of Consistency as a Defining Principle for General World Models

  • The Trinity of Consistency as a Defining Principle for General World Models [106.2]
    一般世界モデルは、客観的物理法則を学習し、シミュレートし、推論することができる。 本稿では,一般世界モデルに必要な基本的特性を定義するための理論的枠組みを提案する。 我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
    論文  参考訳(メタデータ)   (Thu, 26 Feb 2026 16:15:55 GMT)
  • 「This paper is organized to mirror the evolutionary path from specialized modules to unified world simulators. 」とサーベイ的な論文。「In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine.」と主張、ベンチマークを公開。
  • プロジェクトサイトはThe Trinity of Consistency as a Defining Principle for General World Models

MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks 

  • MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks [95.9]
    MiroFlowは、大規模言語モデル(LLM)のためのオープンソースのエージェントフレームワークである。 フレキシブルなオーケストレーションのためのエージェントグラフ、パフォーマンスを向上させるためのオプションの深い推論モード、安定した再現可能なパフォーマンスを保証するための堅牢な実行が含まれている。 GAIA、BrowseComp-EN/ZH、HLE、xBench-DeepSearch、FutureXなど、複数のエージェントベンチマークにおける最先端のパフォーマンスを一貫して達成している。
    論文  参考訳(メタデータ)   (Thu, 26 Feb 2026 09:45:04 GMT)
  • オープンソースのリサーチエージェント。readmeにjaがあるのも興味深い。公式の実装にくらべても高い性能を主張。Foundation tier 、 Agent tier、 Control tierの3層構成。
  • リポジトリはmiroflow/README_ja.md at main · MiroMindAI/miroflow · GitHub

MoDora: Tree-Based Semi-Structured Document Analysis System 

  • MoDora: Tree-Based Semi-Structured Document Analysis System [62.0]
    半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。 MoDora は半構造化文書解析のための LLM を利用したシステムである。 実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
    論文  参考訳(メタデータ)   (Thu, 26 Feb 2026 14:48:49 GMT)
  • 「Semi-structured documents integrate diverse interleaved data elements (e g , tables, charts, hierarchical paragraphs) arranged in various and often irregular layouts. These documents are widely observed across domains and account for a large portion of real- world data.」から始まる論文。実務上苦労する部分でもあるが、本論文では正攻法かつ凝ったアプローチで対応し、成果を出しているよう。
  • リポジトリはGitHub – weAIDB/MoDora

InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem

  • InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem [87.3]
    InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。 我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。 InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
    論文  参考訳(メタデータ)   (Mon, 16 Feb 2026 00:40:31 GMT)
  • 「We introduce InnoEval, a deep idea evaluation frame- work to achieve multi-dimensional, multi-perspective inno- vation assessment grounded in heterogeneous knowledge. We construct an idea evaluation dataset that supports point- wise, pair-wise, and group-wise assessment, incorporating quantitative, qualitative, and human evaluation strategies.」とのこと。凝ったパイプライン構成
  • リポジトリはGitHub – zjunlp/InnoEval: InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem、デモもある

What Makes a Good LLM Agent for Real-world Penetration Testing? 

  • What Makes a Good LLM Agent for Real-world Penetration Testing? [37.6]
    LLMをベースとした28の浸透試験システムを分析し,複雑性の増大を示す3つのベンチマークで5つの代表的実装を評価した。 我々は、B型障害がLLMの根本原因とほとんど変わらず、エージェントはリアルタイムなタスクの難易度推定を欠いていることを示す。 Excaliburは、強力なツールと困難な計画とを結合した浸透試験エージェントである。
    論文  参考訳(メタデータ)   (Thu, 19 Feb 2026 18:42:40 GMT)
  • ペネトレーションテストへのLLMAgent適用。
  • 「PENTEST- GPT V2 achieves 91% task completion on CTF benchmarks (49% improvement over baselines) and compromises 4 of 5 hosts on the GOAD Active Directory environment versus 2 for prior systems」という結果。この領域もAIとの連携が必須になっていて納得感がある(と同時に怖いとも感じる)