TOFU: Task of Fictitious Unlearning

  • TOFU: A Task of Fictitious Unlearning for LLMs [99.9]
    Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。 トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。 未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 18:57:12 GMT)
  • LLMに対するTask unlearningのベンチマーク。事前学習に存在しないデータをfinetuning で入れてunlearningできるかを評価するようなアプローチ。既存の手法は効果が薄いという結果。
  • 「With that and our claim that existing unlearning tools are mostly ineffective, we pose the question of whether or not existing alignment tools work.」は重要な指摘で、多くのモデルでjail breakが可能なことから見てもalignmentで安全なシステムを作ろうとするアプローチは無理筋なんじゃないかと思わなくもない。
  • リポジトリはTOFU: A Task of Fictitious Unlearning for LLMs (locuslab.github.io)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です