- Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs [75.6]
我々は,Claude Codeをベースとしたemphautoresearchスタイルのパイプライン citepkarpathy2026autoresearch が,新しいホワイトボックス対逆攻撃を発見できることを示した。 textbfsignantは、jailbreakで既存のすべての(30以上のメソッド)を著しく上回り、インジェクション評価を促します。
論文 参考訳(メタデータ) (Wed, 25 Mar 2026 16:50:56 GMT) - 「We show that an autoresearch-style pipeline powered by Claude Code discovers novel white-box adversarial attack algorithms that significantly outperform all existing methods in jailbreaking and prompt injection evaluations.」とのこと。。。claudini/.claude/skills/claudini/SKILL.md at main · romovpa/claudini · GitHubのようなSKILLベースというのも今風(そして怖い)。
- Daily Report 2026-03-25自動作成レポート:Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs
- リポジトリはGitHub – romovpa/claudini: Autoresearch for LLM adversarial attacks · GitHub
タグ: Security
What Makes a Good LLM Agent for Real-world Penetration Testing?
- What Makes a Good LLM Agent for Real-world Penetration Testing? [37.6]
LLMをベースとした28の浸透試験システムを分析し,複雑性の増大を示す3つのベンチマークで5つの代表的実装を評価した。 我々は、B型障害がLLMの根本原因とほとんど変わらず、エージェントはリアルタイムなタスクの難易度推定を欠いていることを示す。 Excaliburは、強力なツールと困難な計画とを結合した浸透試験エージェントである。
論文 参考訳(メタデータ) (Thu, 19 Feb 2026 18:42:40 GMT) - ペネトレーションテストへのLLMAgent適用。
- 「PENTEST- GPT V2 achieves 91% task completion on CTF benchmarks (49% improvement over baselines) and compromises 4 of 5 hosts on the GOAD Active Directory environment versus 2 for prior systems」という結果。この領域もAIとの連携が必須になっていて納得感がある(と同時に怖いとも感じる)
Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale
- Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale [26.8]
AIエージェントフレームワークの台頭はエージェントスキル、命令を含むモジュールパッケージ、エージェント機能を動的に拡張する実行可能なコードを導入した。 このアーキテクチャは強力なカスタマイズを可能にするが、スキルは暗黙の信頼と最小限の拒否によって実行され、重要なが不適合なアタックサーフェスを生み出す。 2つの主要な市場から42,447のスキルを収集し、この新興エコシステムの最初の大規模な経験的セキュリティ分析を行います。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 12:31:52 GMT) - 「We conduct the first large-scale empirical security analysis of this emerging ecosystem, collecting 42,447 skills from two major mar- ketplaces and systematically analyzing 31,132 using SkillScan, a multi-stage detection framework integrating static analysis with LLM-based semantic classification. Our findings reveal pervasive security risks: 26.1% of skills contain at least one vulnerability, spanning 14 distinct patterns across four categories—prompt injection, data exfiltration, privilege escalation, and supply chain risks. Data exfiltration (13.3%) and privilege escalation (11.8%) are most prevalent, while 5.2% of skills exhibit high-severity patterns strongly suggesting malicious intent.」となかなか衝撃的な報告。。
Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing
- Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing [83.5]
我々は、人間のサイバーセキュリティ専門家に対するAIエージェントの包括的な評価を初めて提示する。 我々は、既存の6人のAIエージェントと、新しいエージェントの足場であるARTEMISとともに、10人のサイバーセキュリティ専門家を評価します。 ARTEMISは総合的に第2位で、9つの有効な脆弱性と82%の有効な提出率を発見した。
論文 参考訳(メタデータ) (Wed, 10 Dec 2025 18:12:29 GMT) - 「We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six existing AI agents and ARTEMIS, our new agent scaffold, on a large university network consisting of ∼8,000 hosts across 12 subnets. ARTEMIS is a multi-agent framework featuring dynamic prompt generation, arbitrary sub-agents, and automatic vulnerability triaging. In our comparative study, ARTEMIS placed second overall, discovering 9 valid vulnerabilities with an 82% valid submission rate and outperforming 9 of 10 human participants.」とAIエージェント vs 人間の比較。このような分析は今後も様々な分野で実施されていくのだと思いつつ、どのように役割分担していくのか(将来的に人間に残される要素はあるのか)など気になるところ。
- リポジトリはGitHub – Stanford-Trinity/ARTEMIS、プロジェクトサイトはTrinity – Stanford Research
LLMs in the SOC: An Empirical Study of Human-AI Collaboration in Security Operations Centres
- LLMs in the SOC: An Empirical Study of Human-AI Collaboration in Security Operations Centres [15.2]
大規模言語モデルのセキュリティオペレーションセンター(SOC)への統合は、アナリストの作業量を削減するための変革的かつまだ進化している機会を提供する。 本稿では,SOCアナリスト45名を対象に,10ヶ月で3,090件の質問に対して縦断調査を行った。 分析の結果,LLMを高精細度判定ではなく,センスメイキングやコンテキストビルディングのオンデマンド支援として活用していることが判明した。
論文 参考訳(メタデータ) (Tue, 26 Aug 2025 11:40:02 GMT) - SOCアナリストがどのようにLLMを使っているかの報告。
- 「By analysing thousands of analyst-generated queries, we found that analysts use LLMs as on-demand, task-focused cognitive aids for a variety of tasks, including explaining commands, writing scripts, or improving documentation, rather than as full-time copilots.」は現状としてはそうだろうなという印象。
Large Language Models in Cybersecurity: Applications, Vulnerabilities, and Defense Techniques
- Large Language Models in Cybersecurity: Applications, Vulnerabilities, and Defense Techniques [11.2]
大規模言語モデル(LLM)は、脅威検出、脆弱性評価、インシデント応答に対するインテリジェントで適応的で自動化されたアプローチを可能にすることで、サイバーセキュリティを変革している。 高度な言語理解とコンテキスト推論によって、LLMは、IoTやブロックチェーン、ハードウェアセキュリティといったドメイン間の課題に対処する従来の手法を超越している。
論文 参考訳(メタデータ) (Fri, 18 Jul 2025 03:41:18 GMT) - 「This survey provides a comprehensive overview of LLM applications in cybersecurity, focusing on two core areas: (1) the integration of LLMs into key cybersecurity domains, and (2) the vulnerabilities of LLMs themselves, along with mitigation strategies」というLLMとセキュリティに関するサーベイ。
A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents
- A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.5]
大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。 これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
論文 参考訳(メタデータ) (Mon, 30 Jun 2025 13:34:34 GMT) - AIエージェントとセキュリティリスクに関するサーベイ。
- 検討ポイントが多い。。
Mistral Agents API, DeepSeek-R1-0528
先週は企業ニュースというよりarXiv論文の投稿が目立った週だった。更新論文抜きで3700本出ておりチェックがとても大変である。
そんな中注目はMistral AIのBuild AI agents with the Mistral Agents API | Mistral AI。OpenAIにも感じるが単純なAPI提供だけでなくAIの総合的な機能をサポートし多くの部分をクラウド側に持っていく動きは広がっていくんだろうと思う。
NVD – CVE-2025-37899、How I used o3 to find CVE-2025-37899, a remote zeroday vulnerability in the Linux kernel’s SMB implementation – Sean Heelan’s BlogにあるようにAIの能力はとても上がっていて、なくてはならないものになるつつある。Agenticな動作は強力な一方でAPIとの付き合い方は悩ましいところ。
公開モデル関連の話だと、DeepSeek R1の新バージョンがリリースされたよう。上記とは正反対の公開モデルやOSSの動きも要チェック。
LLMs unlock new paths to monetizing exploits
- LLMs unlock new paths to monetizing exploits [85.6]
大規模言語モデル(LLM)はすぐにサイバー攻撃の経済性を変えるだろう。 LLMは、敵がユーザーごとにカスタマイズされた攻撃を起動することを可能にする。
論文 参考訳(メタデータ) (Fri, 16 May 2025 17:05:25 GMT) - LLMの悪用可能性に関する報告。より適合的な攻撃ができるのはそうだろうと思う。
- 「To demonstrate this capability, we divide all emails from the Enron dataset into 150 (potentially overlapping) sets, grouped by the Enron employee who has sent or received that email. We then feed each of these collections of emails into a LLM (Claude 3.5 Sonnet) and ask it to describe everyone who this employee is emailing. Doing this identifies one Enron employee (John G.) who is having an extramarital affair with a coworker.」は大規模データ分析の点からも興味深い。
Teaching Models to Understand (but not Generate) High-risk Data
- Teaching Models to Understand (but not Generate) High-risk Data [38.3]
SLUNG(Selective Loss to Understand but not Generate)を紹介する。 SLUNGは、モデルが高リスクデータを生成せずに理解することを学ぶための事前学習パラダイムである。 SLUNGは、生成を増大させることなく、モデルによる高リスクデータの理解を一貫して改善することを示す。
論文 参考訳(メタデータ) (Mon, 05 May 2025 22:24:06 GMT) - 「This work introduces SLUNG, a pre-training paradigm that enables language models to learn from high-risk data without being trained to generate it. By selectively adjusting the training objective at the token level based on risk, SLUNG decouples a model’s ability to understand from its ability to generate, allowing models to condition on high-risk inputs while learning from adjacent low-risk tokens.」という手法の提案。口外することはできないが学ぶ必要があるもの、というのは現実的に多いわけでこのような手法は非常に面白い。