What Makes a Good LLM Agent for Real-world Penetration Testing?
What Makes a Good LLM Agent for Real-world Penetration Testing? [37.6] LLMをベースとした28の浸透試験システムを分析し,複雑性の増大を示す3つのベンチマークで5つの代表的実装を評価した。 我々は、B型障害がLLMの根本原因とほとんど変わらず、エージェントはリアルタイムなタスクの難易度推定を欠いていることを示す。 Excaliburは、強力なツールと困難な計画とを結合した浸透試験エージェントである。 論文参考訳(メタデータ) (Thu, 19 Feb 2026 18:42:40 GMT)
ペネトレーションテストへのLLMAgent適用。
「PENTEST- GPT V2 achieves 91% task completion on CTF benchmarks (49% improvement over baselines) and compromises 4 of 5 hosts on the GOAD Active Directory environment versus 2 for prior systems」という結果。この領域もAIとの連携が必須になっていて納得感がある(と同時に怖いとも感じる)