Weak-to-Strong Jailbreaking on Large Language Models 

  • Weak-to-Strong Jailbreaking on Large Language Models [96.5]
    Red-teamingのレポートによると、大きな言語モデル(LLM)は、敵のプロンプト、チューニング、デコードによってジェイルブレイクされる可能性がある。 本稿では,より小型で安全でないLDMを用いてジェイルブレイクを誘導する,弱強のジェイルブレイク攻撃を提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 18:48:37 GMT)
  • 弱く(小さい)モデルの挙動を分析することで強く(大きい)モデルをjailbreakできるとの報告。通常のfine tuningでも有効性が指摘されているので、jailbreakに応用できるというのも納得感がある。
  • リポジトリはXuandongZhao/weak-to-strong: Weak-to-Strong Jailbreaking on Large Language Models (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です