Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.7]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
論文参考訳（メタデータ） (Sun, 14 Jul 2024 03:05:53 GMT)
Machine Unlearningのためのベンチマーク、RETURN: Real-world pErsonal daTa UnleaRNing datasetを構築。NameAware Refusal Answer（個人名に対する質問への回答拒否）とContrastive Data Augmentation（個人に対する質問を拡張しデータ不足を解消）を用いたNAUF: Name-Aware Unlearning Framework で優れた性能を達成と報告。
リポジトリはGitHub – zhliu0106/learning-to-refuse: Official Implementation of “Learning to Refuse: Towards Mitigating Privacy Risks in LLMs”

コメントを残す

コメントを残す コメントをキャンセル