Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey [50.0] マルチモーダル生成モデルは、ビルトインの安全機構をバイパスし、潜在的に有害なコンテンツの生成を誘導できる、ジェイルブレイク攻撃の影響を受けやすい。 本調査は,マルチモーダル生成モデルにおけるジェイルブレイクと防御についてレビューする。 論文参考訳(メタデータ) (Thu, 14 Nov 2024 07:51:51 GMT)
本サーベイでは「1) Input Level: Attackers and defenders operate solely on the input data.」、「2) Encoder Level: With access to the encoder, attackers optimize adversarial inputs to inject malicious information into the encoding process, while defenders work to prevent harmful information from being encoded within the latent space」、「3) Generator Level: With full access to the generative models, attackers leverage inference information, such as activations and gradients, and fine-tune models to increase adversarial effectiveness, 」、「4) Output Level: With the output from the generative model, attackers can iteratively refine adversarial inputs,」というレベル分けを採用している