How much do language models memorize? [104.2] 我々は記憶を2つの構成要素に分けている:「文体記憶」と「文体一般化」である。 一般化を完全に排除すると、モデルキャパシティを見積もるトータル・メモリ化を計算することができる。 サイズが大きくなるデータセット上で言語モデルをトレーニングし、キャパシティが満たされるまでモデルを記憶し、その時点での「グルーキング」が始まり、モデルが一般化し始めるにつれて意図しない記憶が減少するのを観察する。 論文参考訳(メタデータ) (Fri, 30 May 2025 17:34:03 GMT)
AGIを目指すうえでとても重要な記憶に関する報告、「We formally separate memorization into two components: unintended memorization, the information a model contains about a specific dataset, and generalization, the information a model contains about the true data-generation process. When we completely eliminate generalization, we can compute the total memorization, which provides an estimate of model capacity: our measurements estimate that GPT-style models have a capacity of approximately 3.6 bits per parameter.」とのこと。