MINITRON / Compact Language Models via Pruning and Knowledge Distillation

  • Compact Language Models via Pruning and Knowledge Distillation [61.6]
    ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。 すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
    論文  参考訳(メタデータ)   (Fri, 19 Jul 2024 21:47:57 GMT)
  • Nemotron 15Bから得られた高性能な8Bモデル及び4Bモデル。pruningとdistillationを組み合わせたベストプラクティスを報告。Gemma2, CriticGPT – arXiv最新論文の紹介 (devneko.jp)のときも蒸留が用いられていたが、大規模なモデルから小規模高性能なモデルを得るような手順が一般的になるのだろうか・・・
  • リポジトリはGitHub – NVlabs/Minitron: A family of compressed models obtained via pruning and knowledge distillation

SparseGPT

  • Massive Language Models Can Be Accurately Pruned in One-Shot [29.3]
    大規模生成事前学習型トランスフォーマー(GPT)ファミリーモデルが1ショットで少なくとも50%の間隔で切断できることを初めて示す。 これはSparseGPTと呼ばれる新しいプルーニング手法によって実現され、特に大規模GPTファミリーモデルにおいて効率的かつ正確に動作するように設計されている。
    論文  参考訳(メタデータ)   (Mon, 2 Jan 2023 17:48:56 GMT)
  • one-shotなpruning手法の報告。OPTを対象にした実験では50%程度はあまり性能を落とさずにpruningできるよう。より大きなモデルのほうがスパース化しやすいという指摘も興味深い。

PLATON(Pruning LArge TransfOrmer with uNcertainty)

  • PLATON: Pruning Large Transformer Models with Upper Confidence Bound of Weight Importance [114.2]
    本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。 我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
    論文  参考訳(メタデータ)   (Sat, 25 Jun 2022 05:38:39 GMT)
    • 重要性と不確実性の両方を考慮しながらPruningを行う手法の提案。BERT、ViT-B16を用いて有効性を検証、既存手法を上回る性能を出したとのこと。
    • リポジトリはQingruZhang/PLATON · GitHubとのことだが、現時点ではソースなどは公開されていない。