Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws 

  • Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.7]
    スケーリング法則は、言語モデルのサイズと能力の関係を記述している。 我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。 7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。
    論文  参考訳(メタデータ)   (Mon, 08 Apr 2024 11:11:31 GMT)
  • 「Through multiple controlled datasets, we establish that language models can and only can store 2 bits of knowledge per parameter, even when quantized to int8, and such knowledge can be flexibly extracted for downstream applications.」とのこと。面白い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です