- Weak-to-Strong Jailbreaking on Large Language Models [96.5]
Red-teamingのレポートによると、大きな言語モデル(LLM)は、敵のプロンプト、チューニング、デコードによってジェイルブレイクされる可能性がある。 本稿では,より小型で安全でないLDMを用いてジェイルブレイクを誘導する,弱強のジェイルブレイク攻撃を提案する。
論文 参考訳(メタデータ) (Tue, 30 Jan 2024 18:48:37 GMT) - 弱く(小さい)モデルの挙動を分析することで強く(大きい)モデルをjailbreakできるとの報告。通常のfine tuningでも有効性が指摘されているので、jailbreakに応用できるというのも納得感がある。
- リポジトリはXuandongZhao/weak-to-strong: Weak-to-Strong Jailbreaking on Large Language Models (github.com)