- Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.7]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。 本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。 プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
論文 参考訳(メタデータ) (Sun, 14 Jul 2024 03:05:53 GMT) - Machine Unlearningのためのベンチマーク、RETURN: Real-world pErsonal daTa UnleaRNing datasetを構築。NameAware Refusal Answer(個人名に対する質問への回答拒否)とContrastive Data Augmentation(個人に対する質問を拡張しデータ不足を解消)を用いたNAUF: Name-Aware Unlearning Framework で優れた性能を達成と報告。
- リポジトリはGitHub – zhliu0106/learning-to-refuse: Official Implementation of “Learning to Refuse: Towards Mitigating Privacy Risks in LLMs”