コンテンツへスキップ
- JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks [24.7]
本稿では,大規模言語モデルのジェイルブレイクを成功させる手法が,MLLMのジェイルブレークに等しく有効かどうかを検討する。 MLLM への LLM ジェイルブレイク手法の転送性を評価するための先駆的なベンチマークである JailBreakV-28K を紹介する。 LLMの高度なジェイルブレイク攻撃と、最近のMLLMのジェイルブレイク攻撃によるイメージベースのジェイルブレイク入力により、20000のテキストベースのジェイルブレイクプロンプトを生成します。
論文 参考訳(メタデータ) (Wed, 03 Apr 2024 19:23:18 GMT)
- MLLMへのJailbreakベンチマーク。「Our extensive experiments reveal that MLLMs inherit vulnerability from their LLM counterparts.」はまぁそうだろうと思いつつ・・・「In addition, text-based jailbreak attacks are more effective than image-based jailbreak attacks and are effective regardless of the image input.」は・・・
- リポジトリはJailbreakV-28K/JailBreakV-28k · Datasets at Hugging Face
- Jailbroken: How Does LLM Safety Training Fail? [92.9]
ChatGPTの初期リリースに対する”jailbreak”攻撃は、望ましくない振る舞いを引き起こす。 このような攻撃がなぜ成功し、どのように発生できるかを考察する。 障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (Wed, 5 Jul 2023 17:58:10 GMT)
- LLM(のAPIなどのサービス)に対するJailbreak攻撃に関して整理とGPT-4, Claude v1.3, GPT-3.5 Turboに対する評価結果。単純な攻撃は成功しにくいが複合的な攻撃は有効など、対策はしているが完全とは言い難いよう。Appendixも参考になる。