unlearning – arXiv最新論文の紹介

BLUR: A Bi-Level Optimization Approach for LLM Unlearning

BLUR: A Bi-Level Optimization Approach for LLM Unlearning [106.0]
大規模言語モデル（LLMs）が訓練によって得た知識や能力を上手く忘れさせることは、データ規制の遵守や倫理的なAI使用に不可欠である。従来の忘却と保持の損失を重み付けした手法は性能低下を招きやすいため、著者らは忘却を優先させた階層的アプローチを提案し、新しいアルゴリズム「Bi-Level UnleaRning（BLUR）」を開発した。この手法は理論的保証を持ちながら、様々な課題において他の最先端アルゴリズムを上回る性能を示している。
論文参考訳（メタデータ） (Mon, 09 Jun 2025 19:23:05 GMT)
「Should we aim to forget and retain simultaneously? In many cases, the answer is no.」、「Instead of treating unlearning as a binary process of simply forgetting specific information while retaining the rest, we argue that we should prioritize and structure these tasks hierarchically.」を軸とした新たなunlearning手法の提案。
リポジトリはGitHub – OptimAI-Lab/BLURLLMUnlearning

Open Problems in Machine Unlearning for AI Safety

Open Problems in Machine Unlearning for AI Safety [61.4]
特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
論文参考訳（メタデータ） (Thu, 09 Jan 2025 03:59:10 GMT)
重要技術ではあるが実用化に至っていない雰囲気のあるMachine unlearningに関するサーベイ。主に課題面にフォーカスしている。
結論の「Current approaches to neural-level interventions often produce unintended effects on broader model capabilities, adding practical challenges to selective capability control, while the difficulty of verifying unlearning success and robustness against relearning raises additional concerns. Furthermore, unlearning interventions can create tensions with existing safety mechanisms, potentially affecting their reliability.」は現状を端的に表している。。。

Machine Unlearning Doesn’t Do What You Think: Lessons for Generative AI Policy, Research, and Practice

Machine Unlearning Doesn’t Do What You Think: Lessons for Generative AI Policy, Research, and Practice [186.1]
非学習はしばしば、生成AIモデルからターゲット情報の影響を取り除くソリューションとして呼び出される。未学習はまた、モデルが出力中にターゲットとなるタイプの情報を生成するのを防ぐ方法として提案されている。これら2つの目標 – モデルからの情報の標的的除去と、モデル出力からの情報のターゲット的抑制 – は、様々な技術的および現実的な課題を表す。
論文参考訳（メタデータ） (Mon, 09 Dec 2024 20:18:43 GMT)
Machine unlearningに関する包括的な情報。「despite the intuitive alignment of the meanings of the words “removal” and “deletion,” it is unclear if technical removal is indeed necessary to satisfy deletion requirements in law and policy.」など技術的な部分以外への言及に力を入れた整理でとても参考になる。

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.7]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
論文参考訳（メタデータ） (Sun, 14 Jul 2024 03:05:53 GMT)
Machine Unlearningのためのベンチマーク、RETURN: Real-world pErsonal daTa UnleaRNing datasetを構築。NameAware Refusal Answer（個人名に対する質問への回答拒否）とContrastive Data Augmentation（個人に対する質問を拡張しデータ不足を解消）を用いたNAUF: Name-Aware Unlearning Framework で優れた性能を達成と報告。
リポジトリはGitHub – zhliu0106/learning-to-refuse: Official Implementation of “Learning to Refuse: Towards Mitigating Privacy Risks in LLMs”

MUSE: Machine Unlearning Six-Way Evaluation for Language Models

MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.8]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。総合的な機械学習評価ベンチマークであるMUSEを提案する。人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文参考訳（メタデータ） (Mon, 08 Jul 2024 23:47:29 GMT)
Machine unlearningに関するベンチマーク、「(1) no verbatim memorization, (2) no knowledge memorization, (3) no privacy leakage, (4) utility preservation on data not intended for removal, (5) scalability with respect to the size of removal requests, and (6) sustainability over sequential unlearning requests.」と多様なクライテリアを持つ。
リポジトリはMUSE (muse-bench.github.io)

The Frontier of Data Erasure

The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.3]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (Sat, 23 Mar 2024 09:26:15 GMT)
Machine unlearningのサーベイ、LLMの大きなリスクの一つであり研究が盛ん

Threats, Attacks, and Defenses in Machine Unlearning: A Survey

Threats, Attacks, and Defenses in Machine Unlearning: A Survey [15.1]
マシン・アンラーニング(MU)はAIの安全性を向上させる可能性に対して大きな注目を集めている。この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究のギャップを埋めようとしている。
論文参考訳（メタデータ） (Wed, 20 Mar 2024 15:40:18 GMT)
Machine unlearning領域の攻撃や防御のサーベイ

TOFU: Task of Fictitious Unlearning

TOFU: A Task of Fictitious Unlearning for LLMs [99.9]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 18:57:12 GMT)
LLMに対するTask unlearningのベンチマーク。事前学習に存在しないデータをfinetuning で入れてunlearningできるかを評価するようなアプローチ。既存の手法は効果が薄いという結果。
「With that and our claim that existing unlearning tools are mostly ineffective, we pose the question of whether or not existing alignment tools work.」は重要な指摘で、多くのモデルでjail breakが可能なことから見てもalignmentで安全なシステムを作ろうとするアプローチは無理筋なんじゃないかと思わなくもない。
リポジトリはTOFU: A Task of Fictitious Unlearning for LLMs (locuslab.github.io)

In-Context Unlearning

In-Context Unlearning: Language Models as Few Shot Unlearners [31.4]
In-Context Unlearningは、モデルパラメータを更新することなく、コンテキスト内でインプットを提供する。これらのコンテキストは、最先端の未学習手法と競合するパフォーマンスレベルを維持しながら、トレーニングセットから特定の情報を効果的に除去することを示します。
論文参考訳（メタデータ） (Wed, 11 Oct 2023 15:19:31 GMT)
In-Context でのUnlearning。 LiRA-Forgetという評価指標で有効性を確認とのことだが、これはunlearningと言えるのかはやや疑問

LLMのUnlearning

Who’s Harry Potter? Approximate Unlearning in LLMs [4.8]
大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
論文参考訳（メタデータ） (Tue, 3 Oct 2023 17:48:14 GMT)
LLMに対するunlearning手法の提案

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30