- GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [139.2]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。 本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。 私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (Wed, 6 Mar 2024 07:29:57 GMT) - LLMを扱う上で大問題になるメモリ効率を高めたトレーニング手法の提案。NVIDIA RTX 4090 RAM 24GBで7Bモデルを事前学習可能とのこと。