Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

  • Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing [83.5]
    我々は、人間のサイバーセキュリティ専門家に対するAIエージェントの包括的な評価を初めて提示する。 我々は、既存の6人のAIエージェントと、新しいエージェントの足場であるARTEMISとともに、10人のサイバーセキュリティ専門家を評価します。 ARTEMISは総合的に第2位で、9つの有効な脆弱性と82%の有効な提出率を発見した。
    論文  参考訳(メタデータ)   (Wed, 10 Dec 2025 18:12:29 GMT)
  • 「We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six existing AI agents and ARTEMIS, our new agent scaffold, on a large university network consisting of ∼8,000 hosts across 12 subnets. ARTEMIS is a multi-agent framework featuring dynamic prompt generation, arbitrary sub-agents, and automatic vulnerability triaging. In our comparative study, ARTEMIS placed second overall, discovering 9 valid vulnerabilities with an 82% valid submission rate and outperforming 9 of 10 human participants.」とAIエージェント vs 人間の比較。このような分析は今後も様々な分野で実施されていくのだと思いつつ、どのように役割分担していくのか(将来的に人間に残される要素はあるのか)など気になるところ。
  • リポジトリはGitHub – Stanford-Trinity/ARTEMIS、プロジェクトサイトはTrinity – Stanford Research

Towards a Science of Scaling Agent Systems 

  • Towards a Science of Scaling Agent Systems [79.6]
    エージェント、言語モデル(LM)ベースのシステムでは、推論、計画、行動が現実のAIアプリケーションの主要なパラダイムになりつつある。 この広く採用されているにもかかわらず、彼らのパフォーマンスを決定する原則は未定のままである。 エージェントシステムのスケーリング原理を導出することで、このギャップに対処する。
    論文  参考訳(メタデータ)   (Tue, 09 Dec 2025 06:52:21 GMT)
  • マルチエージェント化に利点があるのか?が興味深い論文。「We reveal that multi-agent performance exhibits an inverted-U relationship with coordination complexity, with benefits diminishing beyond moderate coordination levels. Domain complexity emerges as the strongest performance predictor (𝛽= −0.114, 𝑝< 0.002), reducing MAS advantage more substantially than architectural choices. Performance gains vary dramatically by task structure: +80.9% on Finance Agent versus −70.0% on PlanCraft, indicating that coordination benefits depend tightly on task decomposability.」と納得感がある(というかそうだよねという)結果

EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs

  • EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs [53.4]
    EventBenchは8つのタスクメトリクスと大規模なイベントストリームデータセットを提供するベンチマークである。 我々は、GPT-5やGemini-2.5 Proのような最先端のクローズドソースモデル、Qwen2.5-VLやInternVL3といったオープンソースモデル、EventGPTのようなイベントベースのMLLMを評価した。
    論文  参考訳(メタデータ)   (Sun, 23 Nov 2025 13:39:01 GMT)
  • MLLMのイベントに対する評価(understanding (i.e., detailed understanding), recognition (i.e., action recognition, gesture recognition, and event OCR)など)ベンチマーク。
  • リポジトリはEventBench

InnoGym: Benchmarking the Innovation Potential of AI Agents 

  • InnoGym: Benchmarking the Innovation Potential of AI Agents [74.6]
    InnoGymはAIエージェントのイノベーションの可能性を評価するために設計された最初のベンチマークである。 InnoGymは2つの相補的なメトリクスを紹介している。パフォーマンスゲイン(パフォーマンスゲイン)と、従来のアプローチと方法論的な違いを捉えるノベルティ(ノベルティ)だ。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 16:03:04 GMT)
  • 「InnoGym consists of two complementary components: iBench, a benchmark designed to evaluate innovation capability, and iGym, a unified development and execution environment. iBench covers 18 carefully curated tasks drawn from real-world engineering and theoretical problems. We focus only on Improvable Tasks, which leave clear room for improvement in both solution quality and methodology.」というAIエージェントがイノベーションを起こせるかを計測しようとするベンチマーク
  • リポジトリはhttps://github.com/zjunlp/igym

H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons 

  • H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons [56.3]
    大型言語モデル(LLM)における幻覚関連ニューロン(H-Neurons)の同定 同定の面では、驚くほどスパースなニューロンのサブセットが幻覚の発生を確実に予測できることが示される。 行動への影響に関して、制御された介入は、これらのニューロンが過度に順応する行動と因果関係があることを明らかにする。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 15:32:14 GMT)
  • 「Our investigation reveals that a remarkably sparse subset of neurons – comprising less than 0.1% of the model’s total neurons – can accurately predict whether the model will produce hallucinated responses. We refer to these predictive neurons as H-Neurons.」、「Our neuron-centric investigation reveals that hallucinations are rooted in the model’s computational architecture and training objectives. 」など興味深い指摘。

Are LLMs Good Safety Agents or a Propaganda Engine?

  • Are LLMs Good Safety Agents or a Propaganda Engine? [74.9]
    PSPは、明らかに政治的文脈から、大規模言語モデルの拒絶行動を調べるために構築されたデータセットである。 PSPは、インターネット上で公開されている2つのデータソースから既存の検閲されたコンテンツをフォーマットすることで構築されている。 1)データ駆動型(PSPを暗黙化する)と表現レベルのアプローチ(政治概念を生かした)による7つのLSMにおける政治的感受性の影響,2)インジェクション攻撃(PIA)によるPSPに対するモデル脆弱性について検討する。
    論文  参考訳(メタデータ)   (Fri, 28 Nov 2025 13:36:00 GMT)
  • LLMが応答を拒否する有害コンテンツを通じて検閲有無を調べようという研究。
  • 「1) some models like DeepSeek R1 and Llama 3.1 actively apply censorship policies by refusing to content that have negligible malicious intent; 2) LLMs like Llama 3.1 are quite sensitive to political contexts, in contrast to guardrail models like PromptGuard; 3) models actively enter a state of ethical dilemma/confusion, when attacked with PIAs that contain competing objectives; 4) neither the number of parameters in a model nor the context of countries has an effect on the refusal distributions.」とのこと。

Guided Self-Evolving LLMs with Minimal Human Supervision

  • Guided Self-Evolving LLMs with Minimal Human Supervision [53.1]
    無誘導の自己進化システムは、しばしば訓練として素早く、または劣化する。 R-Fewはガイド付きセルフプレイチャレンジャー(Self-Play Challenger)買収フレームワークで、コンテキスト内接地と混合トレーニングを通じて、軽量な人間の監視を取り入れている。 R-Fewは、数学と一般的な推論ベンチマークで一貫した反復的な改善を実現している。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 07:06:11 GMT)
  • 「we introduce R-FEW, a guided Self-Play Challenger–Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic ques- tion generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements.」と最近よく見る共同進化的なフレームワークの提案。とても流行っていて有効なアプローチなのだと思う。

Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning

  • Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning [102.1]
    ThinkMergeは、トレーニング不要でプラグ&プレイのデコード戦略だ。 並列推論トレースをKで実行し、同期点における次のTokenロジットを平均化し、単一のコヒーレントな出力を生成する。
    論文  参考訳(メタデータ)   (Tue, 02 Dec 2025 15:35:31 GMT)
  • 「(i) generate K diverse reasoning traces up to a delimiter token, e g </think> (ii) after the delimiter, decode one shared answer sequence by averaging the next- token logits across all K reasoning contexts at every autoregressive step.」という複数の思考を束ねるTHINKMERGEの提案、性能向上を確認とのこと。

EmoRAG: Evaluating RAG Robustness to Symbolic Perturbations

  • EmoRAG: Evaluating RAG Robustness to Symbolic Perturbations [58.0]
    Retrieval-Augmented Generation (RAG)システムは、ますます堅牢なAIの中心になっている。 今回の研究では、微妙な象徴的な摂動に対する感受性という、批判的で見落とされがちな脆弱性が明らかになりました。 一つのエモティコンをクエリに注入することで、意味的に無関係なテキストを100%検索できることを示す。
    論文  参考訳(メタデータ)   (Mon, 01 Dec 2025 06:53:49 GMT)
  • 絵文字、顔文字のようなデータがRAGに大きな影響を与えるとの指摘。
    •  (I) Single- Emoticon Disaster: Even a single emoticon can catastrophically affect RAG systems, causing nearly 100% retrieval of semantically irrelevant content.
    • (II) Widespread Effectiveness: Around 83% of tested emoticons can induce such nearly 100% retrieval failures as mentioned above.
    • (III) Positional Sensitivity: Placing a single emoticon at the beginning of a query can cause severe perturbation, with F1-Scores exceeding 0.92 across all datasets.
    • (IV) Parameter- Scale Vulnerability: Larger models are significantly more sensitive to emoticon-induced perturbations, with F1-Scores almost always reaching 1.00 under perturbation.
    • (V) No Cross-Triggering: Specific emoticons only retrieve content containing the same emoticon, which may provide an attack vector for potential adversaries. 
  • リポジトリはGitHub – EmoRAG-code/EmoRAG

Are Your Agents Upward Deceivers? 

  • Are Your Agents Upward Deceivers? [73.1]
    大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。 これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。 本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
    論文  参考訳(メタデータ)   (Thu, 04 Dec 2025 14:47:05 GMT)
  • 「We evaluate 11 widely used LLM-based agents (e g , Deepseek-v3.1-terminus (DeepSeek-AI, 2024), GLM- 4.5 (Zeng et al , 2025), Gemini-2.5-pro (Comanici et al , 2025)) on our task suite, and the results are striking: agen- tic upward deception is pervasive across all agents. They frequently guess, simulate outcomes, or silently switch in- formation sources when a task cannot be completed, yet still return confident and seemingly valid answers without flagging any anomalies. Most concerningly, several models even fabricate a file locally and disguise it as a successfully downloaded one.」との指摘。生成AIを使っているとしばしば目にする動きではあるが、整理されるとなかなかに衝撃的。
  • リポジトリはQingyuLiu/Agentic-Upward-Deception · GitHub