Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

  • Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.7]
    大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。 本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。 プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
    論文  参考訳(メタデータ)   (Sun, 14 Jul 2024 03:05:53 GMT)
  • Machine Unlearningのためのベンチマーク、RETURN: Real-world pErsonal daTa UnleaRNing datasetを構築。NameAware Refusal Answer(個人名に対する質問への回答拒否)とContrastive Data Augmentation(個人に対する質問を拡張しデータ不足を解消)を用いたNAUF: Name-Aware Unlearning Framework  で優れた性能を達成と報告。
  • リポジトリはGitHub – zhliu0106/learning-to-refuse: Official Implementation of “Learning to Refuse: Towards Mitigating Privacy Risks in LLMs”

MUSE: Machine Unlearning Six-Way Evaluation for Language Models

  • MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.8]
    言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。 総合的な機械学習評価ベンチマークであるMUSEを提案する。 人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
    論文  参考訳(メタデータ)   (Mon, 08 Jul 2024 23:47:29 GMT)
  • Machine unlearningに関するベンチマーク、「(1) no verbatim memorization, (2) no knowledge memorization, (3) no privacy leakage, (4) utility preservation on data not intended for removal, (5) scalability with respect to the size of removal requests, and (6) sustainability over sequential unlearning requests.」と多様なクライテリアを持つ。
  • リポジトリはMUSE (muse-bench.github.io)

The Frontier of Data Erasure

  • The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.3]
    大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。 機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
    論文  参考訳(メタデータ)   (Sat, 23 Mar 2024 09:26:15 GMT)
  • Machine unlearningのサーベイ、LLMの大きなリスクの一つであり研究が盛ん

Threats, Attacks, and Defenses in Machine Unlearning: A Survey

  • Threats, Attacks, and Defenses in Machine Unlearning: A Survey [15.1]
    マシン・アンラーニング(MU)はAIの安全性を向上させる可能性に対して大きな注目を集めている。 この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究のギャップを埋めようとしている。
    論文  参考訳(メタデータ)   (Wed, 20 Mar 2024 15:40:18 GMT)
  • Machine unlearning領域の攻撃や防御のサーベイ

TOFU: Task of Fictitious Unlearning

  • TOFU: A Task of Fictitious Unlearning for LLMs [99.9]
    Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。 トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。 未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 18:57:12 GMT)
  • LLMに対するTask unlearningのベンチマーク。事前学習に存在しないデータをfinetuning で入れてunlearningできるかを評価するようなアプローチ。既存の手法は効果が薄いという結果。
  • 「With that and our claim that existing unlearning tools are mostly ineffective, we pose the question of whether or not existing alignment tools work.」は重要な指摘で、多くのモデルでjail breakが可能なことから見てもalignmentで安全なシステムを作ろうとするアプローチは無理筋なんじゃないかと思わなくもない。
  • リポジトリはTOFU: A Task of Fictitious Unlearning for LLMs (locuslab.github.io)

In-Context Unlearning

  • In-Context Unlearning: Language Models as Few Shot Unlearners [31.4]
    In-Context Unlearningは、モデルパラメータを更新することなく、コンテキスト内でインプットを提供する。 これらのコンテキストは、最先端の未学習手法と競合するパフォーマンスレベルを維持しながら、トレーニングセットから特定の情報を効果的に除去することを示します。
    論文  参考訳(メタデータ)   (Wed, 11 Oct 2023 15:19:31 GMT)
  • In-Context でのUnlearning。 LiRA-Forgetという評価指標で有効性を確認とのことだが、これはunlearningと言えるのかはやや疑問

LLMのUnlearning

  • Who’s Harry Potter? Approximate Unlearning in LLMs [4.8]
    大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。 これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。 本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
    論文  参考訳(メタデータ)   (Tue, 3 Oct 2023 17:48:14 GMT)
  • LLMに対するunlearning手法の提案

Machine Unlearningのサーベイ

  • Machine Unlearning: Solutions and Challenges [23.1]
    機械学習モデルは、機密性、不正、悪意のあるデータを不注意に記憶し、プライバシ侵害、セキュリティ侵害、パフォーマンス劣化のリスクを生じさせる可能性がある。 これらの問題に対処するために、機械学習は訓練されたモデルに対する特定の訓練データポイントの影響を選択的に除去する重要なテクニックとして登場した。
    論文  参考訳(メタデータ)   (Mon, 14 Aug 2023 10:45:51 GMT)
  • Machine Unlearningのサーベイ、EXACT UNLEARNING、APPROXIMATE UNLEARNINGに分けてレビューがなされている。SISA(Sharding, Isolation, Slicing, and Aggregation )が有名な気がしつつ、いろいろなアプローチがあって興味深い。

Machine Unlearningのサーベイ

  • Machine Unlearning: A Survey [56.8]
    プライバシ、ユーザビリティ、および/または忘れられる権利のために、特定のサンプルに関する情報をマシンアンラーニングと呼ばれるモデルから削除する必要がある特別なニーズが生まれている。 この新興技術は、その革新と実用性により、学者と産業の両方から大きな関心を集めている。 この複雑なトピックを分析したり、さまざまなシナリオで既存の未学習ソリューションの実現可能性を比較したりした研究はない。 この調査は、未学習のテクニックに関する卓越した問題と、新しい研究機会のための実現可能な方向性を強調して締めくくった。
    論文  参考訳(メタデータ)   (Tue, 6 Jun 2023 10:18:36 GMT)
  • Machine Unlearningに関するサーベイ論文、最初に他のサーベイとの比較があるのが面白い。重要技術の包括的なサーベイという印象で引用数も100超。

Privacy Adhering Machine Un-learning in NLP

  • Privacy Adhering Machine Un-learning in NLP [66.2]
    現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。 このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。 データの継続的な削除と モデル再訓練のステップはスケールしません この課題に対処するために、Machine Unlearningを提案する。
    論文  参考訳(メタデータ)   (Mon, 19 Dec 2022 16:06:45 GMT)
  • 規制対応等で重要な自然言語処理におけるMachine Unlearning手法(というかUnlearningを可能とする学習フレームワーク)の提案
  • 学習データをシャードに分けて取り扱い、Unlearningの必要が生じた場合は影響を受ける部分のみに対処するというシンプルな方針