GaLore: Low-Rank Projection

  • GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [139.2]
    LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。 本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。 私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
    論文  参考訳(メタデータ)   (Wed, 6 Mar 2024 07:29:57 GMT)
  • LLMを扱う上で大問題になるメモリ効率を高めたトレーニング手法の提案。NVIDIA RTX 4090 RAM 24GBで7Bモデルを事前学習可能とのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です