JailBreakV-28K

  • JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks [24.7]
    本稿では,大規模言語モデルのジェイルブレイクを成功させる手法が,MLLMのジェイルブレークに等しく有効かどうかを検討する。 MLLM への LLM ジェイルブレイク手法の転送性を評価するための先駆的なベンチマークである JailBreakV-28K を紹介する。 LLMの高度なジェイルブレイク攻撃と、最近のMLLMのジェイルブレイク攻撃によるイメージベースのジェイルブレイク入力により、20000のテキストベースのジェイルブレイクプロンプトを生成します。
    論文  参考訳(メタデータ)   (Wed, 03 Apr 2024 19:23:18 GMT)
  • MLLMへのJailbreakベンチマーク。「Our extensive experiments reveal that MLLMs inherit vulnerability from their LLM counterparts.」はまぁそうだろうと思いつつ・・・「In addition, text-based jailbreak attacks are more effective than image-based jailbreak attacks and are effective regardless of the image input.」は・・・
  • リポジトリはJailbreakV-28K/JailBreakV-28k · Datasets at Hugging Face

Weak-to-Strong Jailbreaking on Large Language Models 

  • Weak-to-Strong Jailbreaking on Large Language Models [96.5]
    Red-teamingのレポートによると、大きな言語モデル(LLM)は、敵のプロンプト、チューニング、デコードによってジェイルブレイクされる可能性がある。 本稿では,より小型で安全でないLDMを用いてジェイルブレイクを誘導する,弱強のジェイルブレイク攻撃を提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 18:48:37 GMT)
  • 弱く(小さい)モデルの挙動を分析することで強く(大きい)モデルをjailbreakできるとの報告。通常のfine tuningでも有効性が指摘されているので、jailbreakに応用できるというのも納得感がある。
  • リポジトリはXuandongZhao/weak-to-strong: Weak-to-Strong Jailbreaking on Large Language Models (github.com)

Multilingual Jailbreak Challenges in Large Language Models

  • Multilingual Jailbreak Challenges in Large Language Models [96.7]
    本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。 リスクシナリオとして,意図的でないシナリオと意図的シナリオの2つを考えます。 安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
    論文  参考訳(メタデータ)   (Tue, 10 Oct 2023 09:44:06 GMT)
  • 多言語でのJailbreakと防御法の提案、日本語が入っていないのが悲しい
  • 現実装では多言語プロンプトに対する防御は十分でないという結果に見える。(防御方法はこの論文でも提案されている。)
  • リポジトリはGitHub – DAMO-NLP-SG/multilingual-safety-for-LLMs: Data for “Multilingual Jailbreak Challenges in Large Language Models”

Jailbroken: How Does LLM Safety Training Fail?

  • Jailbroken: How Does LLM Safety Training Fail? [92.9]
    ChatGPTの初期リリースに対する”jailbreak”攻撃は、望ましくない振る舞いを引き起こす。 このような攻撃がなぜ成功し、どのように発生できるかを考察する。 障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 17:58:10 GMT)
  • LLM(のAPIなどのサービス)に対するJailbreak攻撃に関して整理とGPT-4, Claude v1.3, GPT-3.5 Turboに対する評価結果。単純な攻撃は成功しにくいが複合的な攻撃は有効など、対策はしているが完全とは言い難いよう。Appendixも参考になる。