Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws
Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.7] スケーリング法則は、言語モデルのサイズと能力の関係を記述している。 我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。 7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。 論文参考訳(メタデータ) (Mon, 08 Apr 2024 11:11:31 GMT)
「Through multiple controlled datasets, we establish that language models can and only can store 2 bits of knowledge per parameter, even when quantized to int8, and such knowledge can be flexibly extracted for downstream applications.」とのこと。面白い。