Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method 

  • Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.6]
    本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。 我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
    論文  参考訳(メタデータ)   (Mon, 23 Sep 2024 07:55:35 GMT)
  • 事前学習に何が使われたかを検知するタスクpretraining data detectionに関する手法DC-PDD およびベンチマークの提案。「The pretraining data detection problem can be viewed as an instance of the membership inference attack (MIA) task (Shokri et al , 2017), where the primary objective is to determine if a particular text was part of a target LLM’s training corpus.」
  • DC-PDD computes the divergence between the token probability distribution and the token frequency distribution for detection.とのこと。
  • リポジトリはGitHub – zhang-wei-chao/DC-PDD

Do Membership Inference Attacks Work on Large Language Models?

  • Do Membership Inference Attacks Work on Large Language Models? [145.9]
    メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。 我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。 様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 17:52:05 GMT)
  • LLMへのメンバシップ推論攻撃は有効ではないのでは?という報告。「We identify specific settings where LLMs have been shown to be vulnerable to membership inference and show that the apparent success in such settings can be attributed to a distribution shift, such as when members and non-members are drawn from the seemingly identical domain but with different temporal ranges.」と手厳しい。結論にも書いてあったが、こういった特性を理解せずに何かに応用するのは危険であると思う。
  • リポジトリはiamgroot42/mimir: Python package for measuring memorization in LLMs (github.com)