Open Problems in Machine Unlearning for AI Safety

  • Open Problems in Machine Unlearning for AI Safety [61.4]
    特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。 本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
    論文  参考訳(メタデータ)   (Thu, 09 Jan 2025 03:59:10 GMT)
  • 重要技術ではあるが実用化に至っていない雰囲気のあるMachine unlearningに関するサーベイ。主に課題面にフォーカスしている。
  • 結論の「Current approaches to neural-level interventions often produce unintended effects on broader model capabilities, adding practical challenges to selective capability control, while the difficulty of verifying unlearning success and robustness against relearning raises additional concerns. Furthermore, unlearning interventions can create tensions with existing safety mechanisms, potentially affecting their reliability.」は現状を端的に表している。。。

Machine Unlearning Doesn’t Do What You Think: Lessons for Generative AI Policy, Research, and Practice

  • Machine Unlearning Doesn’t Do What You Think: Lessons for Generative AI Policy, Research, and Practice [186.1]
    非学習はしばしば、生成AIモデルからターゲット情報の影響を取り除くソリューションとして呼び出される。 未学習はまた、モデルが出力中にターゲットとなるタイプの情報を生成するのを防ぐ方法として提案されている。 これら2つの目標 – モデルからの情報の標的的除去と、モデル出力からの情報のターゲット的抑制 – は、様々な技術的および現実的な課題を表す。
    論文  参考訳(メタデータ)   (Mon, 09 Dec 2024 20:18:43 GMT)
  • Machine unlearningに関する包括的な情報。「despite the intuitive alignment of the meanings of the words “removal” and “deletion,” it is unclear if technical removal is indeed necessary to satisfy deletion requirements in law and policy.」など技術的な部分以外への言及に力を入れた整理でとても参考になる。

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

  • Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.7]
    大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。 本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。 プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
    論文  参考訳(メタデータ)   (Sun, 14 Jul 2024 03:05:53 GMT)
  • Machine Unlearningのためのベンチマーク、RETURN: Real-world pErsonal daTa UnleaRNing datasetを構築。NameAware Refusal Answer(個人名に対する質問への回答拒否)とContrastive Data Augmentation(個人に対する質問を拡張しデータ不足を解消)を用いたNAUF: Name-Aware Unlearning Framework  で優れた性能を達成と報告。
  • リポジトリはGitHub – zhliu0106/learning-to-refuse: Official Implementation of “Learning to Refuse: Towards Mitigating Privacy Risks in LLMs”

MUSE: Machine Unlearning Six-Way Evaluation for Language Models

  • MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.8]
    言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。 総合的な機械学習評価ベンチマークであるMUSEを提案する。 人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 23:47:29 GMT)
  • Machine unlearningに関するベンチマーク、「(1) no verbatim memorization, (2) no knowledge memorization, (3) no privacy leakage, (4) utility preservation on data not intended for removal, (5) scalability with respect to the size of removal requests, and (6) sustainability over sequential unlearning requests.」と多様なクライテリアを持つ。
  • リポジトリはMUSE (muse-bench.github.io)

The Frontier of Data Erasure

  • The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.3]
    大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。 機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
    論文  参考訳(メタデータ)   (Sat, 23 Mar 2024 09:26:15 GMT)
  • Machine unlearningのサーベイ、LLMの大きなリスクの一つであり研究が盛ん

Threats, Attacks, and Defenses in Machine Unlearning: A Survey

  • Threats, Attacks, and Defenses in Machine Unlearning: A Survey [15.1]
    マシン・アンラーニング(MU)はAIの安全性を向上させる可能性に対して大きな注目を集めている。 この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究のギャップを埋めようとしている。
    論文  参考訳(メタデータ)   (Wed, 20 Mar 2024 15:40:18 GMT)
  • Machine unlearning領域の攻撃や防御のサーベイ

TOFU: Task of Fictitious Unlearning

  • TOFU: A Task of Fictitious Unlearning for LLMs [99.9]
    Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。 トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。 未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 18:57:12 GMT)
  • LLMに対するTask unlearningのベンチマーク。事前学習に存在しないデータをfinetuning で入れてunlearningできるかを評価するようなアプローチ。既存の手法は効果が薄いという結果。
  • 「With that and our claim that existing unlearning tools are mostly ineffective, we pose the question of whether or not existing alignment tools work.」は重要な指摘で、多くのモデルでjail breakが可能なことから見てもalignmentで安全なシステムを作ろうとするアプローチは無理筋なんじゃないかと思わなくもない。
  • リポジトリはTOFU: A Task of Fictitious Unlearning for LLMs (locuslab.github.io)

In-Context Unlearning

  • In-Context Unlearning: Language Models as Few Shot Unlearners [31.4]
    In-Context Unlearningは、モデルパラメータを更新することなく、コンテキスト内でインプットを提供する。 これらのコンテキストは、最先端の未学習手法と競合するパフォーマンスレベルを維持しながら、トレーニングセットから特定の情報を効果的に除去することを示します。
    論文  参考訳(メタデータ)   (Wed, 11 Oct 2023 15:19:31 GMT)
  • In-Context でのUnlearning。 LiRA-Forgetという評価指標で有効性を確認とのことだが、これはunlearningと言えるのかはやや疑問

LLMのUnlearning

  • Who’s Harry Potter? Approximate Unlearning in LLMs [4.8]
    大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。 これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。 本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
    論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 17:48:14 GMT)
  • LLMに対するunlearning手法の提案

Machine Unlearningのサーベイ

  • Machine Unlearning: Solutions and Challenges [23.1]
    機械学習モデルは、機密性、不正、悪意のあるデータを不注意に記憶し、プライバシ侵害、セキュリティ侵害、パフォーマンス劣化のリスクを生じさせる可能性がある。 これらの問題に対処するために、機械学習は訓練されたモデルに対する特定の訓練データポイントの影響を選択的に除去する重要なテクニックとして登場した。
    論文  参考訳(メタデータ)   (Mon, 14 Aug 2023 10:45:51 GMT)
  • Machine Unlearningのサーベイ、EXACT UNLEARNING、APPROXIMATE UNLEARNINGに分けてレビューがなされている。SISA(Sharding, Isolation, Slicing, and Aggregation )が有名な気がしつつ、いろいろなアプローチがあって興味深い。