- NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks [30.2]
NeuZipはニューラルネットワークにおける浮動小数点数のエントロピーに基づく新しい重み圧縮方式である。 Llama-3 8Bモデルのメモリフットプリントを31GBから16GB以下に大幅に削減した。 推定では, ほぼロスレス性能を維持しながら, メモリ使用量を半減することができる。
論文 参考訳(メタデータ) (Mon, 28 Oct 2024 01:12:20 GMT) - ニューラルネットワークの圧縮(メモリ削減)手法の提案。量子化などと異なりロスレスで実用的と思われる手法であるのが興味深い。不可逆な手法でも「The lossy NeuZip provides additional memory saving for inference, achieving superior memory–performance trade-off.」とのこと。
- リポジトリはGitHub – BorealisAI/neuzip: Official repository for the paper “NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks”. This repository contains the code for the experiments in the paper.