- Multilingual Jailbreak Challenges in Large Language Models [96.7]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。 リスクシナリオとして,意図的でないシナリオと意図的シナリオの2つを考えます。 安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (Tue, 10 Oct 2023 09:44:06 GMT) - 多言語でのJailbreakと防御法の提案、日本語が入っていないのが悲しい
- 現実装では多言語プロンプトに対する防御は十分でないという結果に見える。(防御方法はこの論文でも提案されている。)
- リポジトリはGitHub – DAMO-NLP-SG/multilingual-safety-for-LLMs: Data for “Multilingual Jailbreak Challenges in Large Language Models”