GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

  • GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [89.5]
    実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。 本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
    論文  参考訳(メタデータ)   (Sat, 12 Aug 2023 04:05:57 GMT)
  • 暗号を介する事でGPT-4の安全対策を回避できたという報告。最初にLLMに暗号化と復号のルールを教えこむプロセスなのが面白い。
  • リポジトリはGitHub – RobustNLP/CipherChat: A framework to evaluate the generalization capability of safety alignment for LLMs

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です