- Shh, don’t say that! Domain Certification in LLMs [124.6]
大きな言語モデル(LLM)は狭いドメインで制約されたタスクを実行するためにしばしばデプロイされる。 ドメイン認証は、言語モデルのドメイン外動作を正確に特徴付ける保証である。 次に, 逆境界を証明として提供するVALIDを, 単純かつ効果的なアプローチとして提案する。
論文 参考訳(メタデータ) (Wed, 26 Feb 2025 17:13:19 GMT) - 任意の入力がある状況下で狙ったドメイン以外の回答をしないようにする手法、Verified Adversarial LLM Output via Iterative Dismissal (VALID)の提案。
タグ: Attack
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks
- Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.8]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。 本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。 我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (Wed, 12 Feb 2025 17:19:36 GMT) - LLM based Agentsに対する攻撃手法の提案、「In this paper, we argue that LLM-powered agents, especially those that have the ability to communicate with the outside world via web access or external-facing databases, already pose a massive danger to their users which has largely been overlooked by the ML security and privacy community.」とのこと。Agentに対するPhisingが意外とできそうなことに若干驚き。Redditが信頼できるかというと見解は様々だと思うが、現状のAgentへの攻撃有効性が高いというのが意外だった。論文中にもある通り、自動化が進むゆえに開発側の対応体制は重要に思う。
OVERTHINKING: Slowdown Attacks on Reasoning LLMs
- OVERTHINKING: Slowdown Attacks on Reasoning LLMs [41.7]
OVERTHINK攻撃は、推論モデルを操作するサードパーティアプリケーションのコストを増幅する可能性がある。 我々は、クローズド(OpenAI o1, o1-mini, o3-mini)とオープン(DeepSeek R1)の重み付けモデルを用いて、FreshQAおよびSQuADデータセットによる攻撃を評価した。
論文 参考訳(メタデータ) (Tue, 04 Feb 2025 18:12:41 GMT) - 推論効率を低下させるoverthinking攻撃、「Our experimental results show that OVERTHINK significantly disrupts reasoning efficiency, with attacks on the o1 model increasing reasoning tokens up to 18× and over 10× on DeepSeek-R1.」とのこと。
- 「Our attack contains three key stages: (1) picking a decoy problem that results in a large number of reasoning tokens, but won’t trigger safety filters; (2) integrating selected decoys into a compromised source (e g , a wiki page) by either modifying the problem to fit the context (context-aware) or by injecting a general template (context-agnostic), and, (3) optimizing the decoy tasks using an in-context learning genetic (ICL-Genetic) algorithm to select contexts with decoys that provide highest reasoning tokens and maintain stealthiness of the answers to the user.」というアプローチ。計算負荷の高い正規表現を使うDoSっぽいと思ってしまい、有効な攻撃になりえそう。。。
「In rare cases, R1 can get stuck “thinking forever”.」と記載がある論文を思い出した。
- PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models [43.2]
一般知識のみを必要とするNPRサンデーパズルチャレンジに基づくベンチマークを提案する。 私たちの研究は、既存のベンチマークでは明らかでない機能ギャップを明らかにしています。
論文 参考訳(メタデータ) (Mon, 03 Feb 2025 18:10:38 GMT)
o3-mini vs DeepSeek-R1: Which One is Safer?
- o3-mini vs DeepSeek-R1: Which One is Safer? [6.1]
DeepSeek-R1はOpenAIのo3-miniと比べて非常に安全ではない。 DeepSeek-R1は、実行されたプロンプトの11.98%に対して安全ではないと答えたが、o3-miniは1.19%だった。
論文 参考訳(メタデータ) (Thu, 30 Jan 2025 15:45:56 GMT) - Deepseek R1とOpenAI o3-miniの安全性評価。既存フレームワークを使っているとはいえ、すごいスピード間での発表。(「The team conducting the study was part of the early access safety testing program of OpenAI: https://openai.com/index/ early-access-for-safety-testing/」との脚注はある)
- 結論としては「Our results suggests that OpenAI’s o3-mini LLM is a much safer model than DeepSeek-R1, which answered unsafely to almost 12% of the executed unsafe prompts.」とのこと。
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents
- Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.6]
Agent Security Bench (ASB) は、LLMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するためのフレームワークである。 我々は, インジェクション攻撃10件, メモリ中毒攻撃, 新規のPlan-of-Thoughtバックドア攻撃, 混合攻撃10件, 対応するバックボーン13件についてベンチマークを行った。 ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (Thu, 03 Oct 2024 16:30:47 GMT) - エージェントに対する攻撃と防御のベンチマーク。基礎性能が高くないとそもそもASRが低いが、性能が高いと攻撃を拒否することも可能になるように見える。結果が興味深い。
- リポジトリはGitHub – agiresearch/ASB: Agent Security Bench (ASB)
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration
- CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.4]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。 視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。 本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (Tue, 17 Sep 2024 17:14:41 GMT) - MLLMにおいて悪意のある画像を介した攻撃が問題になるが、その対応に関する論文。
- 「We first make the observation that despite the integration of visual modality makes the MLLMs more vulnerable, the inherent safetyawareness of MLLMs still exists.」はへーという感じ、
Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking
- Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking [6.9]
我々は、GenAIモデルをジェイルブレイクする能力により、攻撃者はRAGベースのアプリケーションに対する攻撃の結果をエスカレートできることを示した。 論文の前半では、攻撃者がRAG文書抽出攻撃に対してRAGメンバシップ推論攻撃をエスカレートできることが示されている。 論文の第2部では、攻撃者がRAGデータ中毒攻撃の規模を拡大し、単一のアプリケーションに妥協することで、GenAIエコシステム全体を妥協できることを示す。
論文 参考訳(メタデータ) (Thu, 12 Sep 2024 13:50:22 GMT) - RAGに対する攻撃、RAG membership inference attacks、RAG entity extraction attacksからRAG documents extraction attacksへ。
- 「Adversarial Self-Replicating Prompts」の考え方が面白い。
- リポジトリはGitHub – StavC/UnleashingWorms-ExtractingData: Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking
Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers
- Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.2]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。 DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (Sat, 03 Aug 2024 08:07:03 GMT) - 下流タスクをターゲットとした攻撃手法の提案。downstream transfer attacks (DTAs)は有効とのこと。また、「We also found that emerging PETL methods like LoRA are more susceptible to transfer attacks crafted on the pre-trained model.」という指摘はそうだろうと思いつつ、有用な方法なので頭が痛い。
A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics
- A Survey on Privacy Attacks Against Digital Twin Systems in AI-Robotics [4.3]
産業 4.0 は、人工知能/機械学習(AI/ML)とデジタルツイン(DT)技術の統合によって、複雑なロボットが台頭するのを目撃している。 本稿では,AIモデルとDTモデルによって実現されたロボットを対象としたプライバシ攻撃について調査する。
論文 参考訳(メタデータ) (Thu, 27 Jun 2024 00:59:20 GMT) - デジタルツインに着目した攻撃に関するサーベイ
- 想定しているフレームワークは「Physical spaces comprise robotic sensors that collect data.Virtual space utilizes the data collected from physical space via a communication link between them.Predictions are generated by the AI models within vitual space, which are then analyzed before decisions are made by stakeholders.」
Chain of Attack
- Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.0]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。 CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。 我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文 参考訳(メタデータ) (Thu, 09 May 2024 08:15:21 GMT) - マルチターンな攻撃方法
- リポジトリはGitHub – YancyKahn/CoA: CoA: Context-Aware based Chain of Attack for Multi-Turn Dialogue LLM