Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale

  • Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale [26.8]
    AIエージェントフレームワークの台頭はエージェントスキル、命令を含むモジュールパッケージ、エージェント機能を動的に拡張する実行可能なコードを導入した。 このアーキテクチャは強力なカスタマイズを可能にするが、スキルは暗黙の信頼と最小限の拒否によって実行され、重要なが不適合なアタックサーフェスを生み出す。 2つの主要な市場から42,447のスキルを収集し、この新興エコシステムの最初の大規模な経験的セキュリティ分析を行います。
    論文  参考訳(メタデータ)   (Thu, 15 Jan 2026 12:31:52 GMT)
  • 「We conduct the first large-scale empirical security analysis of this emerging ecosystem, collecting 42,447 skills from two major mar- ketplaces and systematically analyzing 31,132 using SkillScan, a multi-stage detection framework integrating static analysis with LLM-based semantic classification. Our findings reveal pervasive security risks: 26.1% of skills contain at least one vulnerability, spanning 14 distinct patterns across four categories—prompt injection, data exfiltration, privilege escalation, and supply chain risks. Data exfiltration (13.3%) and privilege escalation (11.8%) are most prevalent, while 5.2% of skills exhibit high-severity patterns strongly suggesting malicious intent.」となかなか衝撃的な報告。。

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

  • Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing [83.5]
    我々は、人間のサイバーセキュリティ専門家に対するAIエージェントの包括的な評価を初めて提示する。 我々は、既存の6人のAIエージェントと、新しいエージェントの足場であるARTEMISとともに、10人のサイバーセキュリティ専門家を評価します。 ARTEMISは総合的に第2位で、9つの有効な脆弱性と82%の有効な提出率を発見した。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 18:12:29 GMT)
  • 「We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six existing AI agents and ARTEMIS, our new agent scaffold, on a large university network consisting of ∼8,000 hosts across 12 subnets. ARTEMIS is a multi-agent framework featuring dynamic prompt generation, arbitrary sub-agents, and automatic vulnerability triaging. In our comparative study, ARTEMIS placed second overall, discovering 9 valid vulnerabilities with an 82% valid submission rate and outperforming 9 of 10 human participants.」とAIエージェント vs 人間の比較。このような分析は今後も様々な分野で実施されていくのだと思いつつ、どのように役割分担していくのか(将来的に人間に残される要素はあるのか)など気になるところ。
  • リポジトリはGitHub – Stanford-Trinity/ARTEMIS、プロジェクトサイトはTrinity – Stanford Research

LLMs in the SOC: An Empirical Study of Human-AI Collaboration in Security Operations Centres

  • LLMs in the SOC: An Empirical Study of Human-AI Collaboration in Security Operations Centres [15.2]
    大規模言語モデルのセキュリティオペレーションセンター(SOC)への統合は、アナリストの作業量を削減するための変革的かつまだ進化している機会を提供する。 本稿では,SOCアナリスト45名を対象に,10ヶ月で3,090件の質問に対して縦断調査を行った。 分析の結果,LLMを高精細度判定ではなく,センスメイキングやコンテキストビルディングのオンデマンド支援として活用していることが判明した。
    論文  参考訳(メタデータ)   (Tue, 26 Aug 2025 11:40:02 GMT)
  • SOCアナリストがどのようにLLMを使っているかの報告。
  • 「By analysing thousands of analyst-generated queries, we found that analysts use LLMs as on-demand, task-focused cognitive aids for a variety of tasks, including explaining commands, writing scripts, or improving documentation, rather than as full-time copilots.」は現状としてはそうだろうなという印象。

Large Language Models in Cybersecurity: Applications, Vulnerabilities, and Defense Techniques 

  • Large Language Models in Cybersecurity: Applications, Vulnerabilities, and Defense Techniques [11.2]
    大規模言語モデル(LLM)は、脅威検出、脆弱性評価、インシデント応答に対するインテリジェントで適応的で自動化されたアプローチを可能にすることで、サイバーセキュリティを変革している。 高度な言語理解とコンテキスト推論によって、LLMは、IoTやブロックチェーン、ハードウェアセキュリティといったドメイン間の課題に対処する従来の手法を超越している。
    論文  参考訳(メタデータ)   (Fri, 18 Jul 2025 03:41:18 GMT)
  • 「This survey provides a comprehensive overview of LLM applications in cybersecurity, focusing on two core areas: (1) the integration of LLMs into key cybersecurity domains, and (2) the vulnerabilities of LLMs themselves, along with mitigation strategies」というLLMとセキュリティに関するサーベイ。

A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents 

  • A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.5]
    大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。 これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
    論文  参考訳(メタデータ)   (Mon, 30 Jun 2025 13:34:34 GMT)
  • AIエージェントとセキュリティリスクに関するサーベイ。
  • 検討ポイントが多い。。

Mistral Agents API, DeepSeek-R1-0528

先週は企業ニュースというよりarXiv論文の投稿が目立った週だった。更新論文抜きで3700本出ておりチェックがとても大変である。

そんな中注目はMistral AIのBuild AI agents with the Mistral Agents API | Mistral AI。OpenAIにも感じるが単純なAPI提供だけでなくAIの総合的な機能をサポートし多くの部分をクラウド側に持っていく動きは広がっていくんだろうと思う。

NVD – CVE-2025-37899How I used o3 to find CVE-2025-37899, a remote zeroday vulnerability in the Linux kernel’s SMB implementation – Sean Heelan’s BlogにあるようにAIの能力はとても上がっていて、なくてはならないものになるつつある。Agenticな動作は強力な一方でAPIとの付き合い方は悩ましいところ。

公開モデル関連の話だと、DeepSeek R1の新バージョンがリリースされたよう。上記とは正反対の公開モデルやOSSの動きも要チェック。

deepseek-ai/DeepSeek-R1-0528 · Hugging Face

LLMs unlock new paths to monetizing exploits 

  • LLMs unlock new paths to monetizing exploits [85.6]
    大規模言語モデル(LLM)はすぐにサイバー攻撃の経済性を変えるだろう。 LLMは、敵がユーザーごとにカスタマイズされた攻撃を起動することを可能にする。
    論文  参考訳(メタデータ)   (Fri, 16 May 2025 17:05:25 GMT)
  • LLMの悪用可能性に関する報告。より適合的な攻撃ができるのはそうだろうと思う。
  • 「To demonstrate this capability, we divide all emails from the Enron dataset into 150 (potentially overlapping) sets, grouped by the Enron employee who has sent or received that email. We then feed each of these collections of emails into a LLM (Claude 3.5 Sonnet) and ask it to describe everyone who this employee is emailing. Doing this identifies one Enron employee (John G.) who is having an extramarital affair with a coworker.」は大規模データ分析の点からも興味深い。

Teaching Models to Understand (but not Generate) High-risk Data

  • Teaching Models to Understand (but not Generate) High-risk Data [38.3]
    SLUNG(Selective Loss to Understand but not Generate)を紹介する。 SLUNGは、モデルが高リスクデータを生成せずに理解することを学ぶための事前学習パラダイムである。 SLUNGは、生成を増大させることなく、モデルによる高リスクデータの理解を一貫して改善することを示す。
    論文  参考訳(メタデータ)   (Mon, 05 May 2025 22:24:06 GMT)
  • 「This work introduces SLUNG, a pre-training paradigm that enables language models to learn from high-risk data without being trained to generate it. By selectively adjusting the training objective at the token level based on risk, SLUNG decouples a model’s ability to understand from its ability to generate, allowing models to condition on high-risk inputs while learning from adjacent low-risk tokens.」という手法の提案。口外することはできないが学ぶ必要があるもの、というのは現実的に多いわけでこのような手法は非常に面白い。

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

  • Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models [33.2]
    Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。 エージェント能力を評価するために,gpt-4o,claude 3 opus,claude 3.5 sonnet,mixtral 8x22b instruct,gemini 1.5 pro,llama 3 70b chat,llama 3.1 405b instructの7モデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 15 Aug 2024 17:23:10 GMT)
  • CTFコンペから抽出したタスクをLLMが解けるかのベンチマーク。ガイドなしだとまだまだ難しそうな感じ。閲覧時点ではClaude 3.5 Sonnet > GPT-4o > Claude 3 Opusで、オープン系のLlama 3.1 405B Instructは商用モデルに比べてかなり性能が低い。
  • リポジトリはCybench

Towards more Practical Threat Models in Artificial Intelligence Security

  • Towards more Practical Threat Models in Artificial Intelligence Security [71.5]
    我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。 我々の論文は、人工知能のセキュリティにおけるより実用的な脅威モデルを研究するための行動である。
    論文  参考訳(メタデータ)   (Thu, 16 Nov 2023 16:09:44 GMT)
  • AIセキュリティに関して研究と実際の差を分析した論文。key findingsを見るだけでも結構なギャップがありそう。。。