Weak-to-Strong Jailbreaking on Large Language Models

Weak-to-Strong Jailbreaking on Large Language Models [96.5]
Red-teamingのレポートによると、大きな言語モデル(LLM)は、敵のプロンプト、チューニング、デコードによってジェイルブレイクされる可能性がある。本稿では,より小型で安全でないLDMを用いてジェイルブレイクを誘導する,弱強のジェイルブレイク攻撃を提案する。
論文参考訳（メタデータ） (Tue, 30 Jan 2024 18:48:37 GMT)
弱く（小さい）モデルの挙動を分析することで強く（大きい）モデルをjailbreakできるとの報告。下記のように通常のfine tuningでも有効性が指摘されているので、jailbreakに応用できるというのも納得感がある。
リポジトリはXuandongZhao/weak-to-strong: Weak-to-Strong Jailbreaking on Large Language Models (github.com)

Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision [55.2]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか? 弱いモデルが生成したラベルに強い事前訓練されたモデルを微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文参考訳（メタデータ） (Thu, 14 Dec 2023 23:07:33 GMT)

コメントを残す

コメントを残す コメントをキャンセル