Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey 

  • Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey [50.0]
    マルチモーダル生成モデルは、ビルトインの安全機構をバイパスし、潜在的に有害なコンテンツの生成を誘導できる、ジェイルブレイク攻撃の影響を受けやすい。 本調査は,マルチモーダル生成モデルにおけるジェイルブレイクと防御についてレビューする。
    論文  参考訳(メタデータ)   (Thu, 14 Nov 2024 07:51:51 GMT)
  • マルチモーダル設定におけるJailbreak攻撃のサーベイ。モダリティが増えると攻撃に関するバリエーションも増え、面白い(と同時に防御の難しさが興味深い)
  • 本サーベイでは「1) Input Level: Attackers and defenders operate solely on the input data.」、「2) Encoder Level: With access to the encoder, attackers optimize adversarial inputs to inject malicious information into the encoding process, while defenders work to prevent harmful information from being encoded within the latent space」、「3) Generator Level: With full access to the generative models, attackers leverage inference information, such as activations and gradients, and fine-tune models to increase adversarial effectiveness, 」、「4) Output Level: With the output from the generative model, attackers can iteratively refine adversarial inputs,」というレベル分けを採用している
  • リポジトリはGitHub – liuxuannan/Awesome-Multimodal-Jailbreak

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です