- Imperceptible Jailbreaking against Large Language Models [107.8]
変分セレクタと呼ばれるUnicode文字のクラスを利用する非受容ジェイルブレイクを導入する。 目に見えない変分セレクタを悪意のある質問に追加することで、ジェイルブレイクプロンプトは画面上の元の悪意のある質問と視覚的に同じように見える。 本研究では,このような逆接尾辞を生成し,有害な応答を誘導する探索パイプラインを提案する。
論文 参考訳(メタデータ) (Mon, 06 Oct 2025 17:03:50 GMT) - 目に見えないUnicode文字を使った imperceptible jailbreaksの提案。
- リポジトリはGitHub – sail-sg/imperceptible-jailbreaks: [ArXiv 2025] Imperceptible Jailbreaking against Large Language Models