Knowledge Distillation and Dataset Distillation of Large Language Models: Emerging Trends, Challenges, and Future Directions 

  • Knowledge Distillation and Dataset Distillation of Large Language Models: Emerging Trends, Challenges, and Future Directions [35.8]
    LLM(Large Language Models)の指数関数的成長は、絶え間なく拡大する計算およびデータ要求を満たすための効率的な戦略の必要性を強調し続けている。 本調査は、知識蒸留(KD)とデータセット蒸留(DD)の2つの相補的パラダイムを包括的に分析する。
    論文  参考訳(メタデータ)   (Sun, 20 Apr 2025 23:50:23 GMT)
  • 蒸留に関するサーベイ
  • 「Crucially, the success of KD in LLMs hinges on DD techniques, which enable the creation of compact, informationrich synthetic datasets that encapsulate the diverse and complex knowledge of the teacher LLMs.」とKnowledge distillationとDataset distillationを対としてサーベイするものは珍しいかもしれない

Antidistillation Sampling

  • Antidistillation Sampling [98.9]
    拡張推論トレースを生成するモデルは、モデル蒸留を容易にするリッチトークンシーケンスを不注意に生成する。 この脆弱性を認識したモデル所有者は、モデル性能を損なうことなく蒸留の有効性を制限するサンプリング戦略を求めることができる。 抗蒸留サンプリング毒は痕跡を推し進め、モデルの実用性を保ちながら蒸留の効力を著しく低下させた。
    論文  参考訳(メタデータ)   (Thu, 17 Apr 2025 17:54:14 GMT)
  • タイトルの通り蒸留を困難にするサンプリング戦略の提案
  • プロジェクトサイトはAntidistillation Sampling

TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models 

  • TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models [6.8]
    本稿では,新規な知識蒸留法である$textitTemporally Adaptive Interpolated Distillation (TAID)$を紹介する。 TAIDは,各種モデルサイズおよびアーキテクチャに対して,命令チューニングと事前学習のシナリオにおいて優れた性能を示す。 これらの結果は、TAIDが高性能で効率的なモデルの作成に有効であることを示し、よりアクセスしやすいAI技術の開発を推進している。
    論文  参考訳(メタデータ)   (Wed, 29 Jan 2025 05:51:25 GMT)
  • 「TAID reduces the gap between teacher and student model throughout the training process by dynamically introducing an intermediate teacher that interpolates teacher and student models to provide a target distribution with a modest capability」という蒸留法の提案
  • ニュースリリースは新手法「TAID」を用いた小規模日本語言語モデル「TinySwallow-1.5B」の公開、リポジトリはTinySwallow – a SakanaAI Collection
  • Deepseek R1のようにライセンス上蒸留を許可しているLRM/LLMが出てきたことによるこの手の手法の重要性が上がっているように思う。

MINITRON / Compact Language Models via Pruning and Knowledge Distillation

  • Compact Language Models via Pruning and Knowledge Distillation [61.6]
    ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。 すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
    論文  参考訳(メタデータ)   (Fri, 19 Jul 2024 21:47:57 GMT)
  • Nemotron 15Bから得られた高性能な8Bモデル及び4Bモデル。pruningとdistillationを組み合わせたベストプラクティスを報告。Gemma2, CriticGPT – arXiv最新論文の紹介 (devneko.jp)のときも蒸留が用いられていたが、大規模なモデルから小規模高性能なモデルを得るような手順が一般的になるのだろうか・・・
  • リポジトリはGitHub – NVlabs/Minitron: A family of compressed models obtained via pruning and knowledge distillation

SOCRATIC COT

  • Distilling Reasoning Capabilities into Smaller Language Models [83.7]
    思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。 しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。 本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 18 May 2023 04:44:51 GMT)
  • 大規模なモデルから得たCoTの出力を小さなモデルに適用する取り組み。CoTをより細かいQAに分解し、Question GeneratorモデルとQAモデルを学習する仕組みのよう。小さなモデル (GPT-2 large) で10倍のモデル (GPT-3 6B)をout performしたとのこと。
  • リポジトリはGitHub – kumar-shridhar/Distiiling-LM: The code for the paper : Distilling Reasoning Capabilities into Smaller Language Models

What do LLMs Know about Financial Markets? A Case Study on Reddit Market Sentiment Analysis 

  • What do LLMs Know about Financial Markets? A Case Study on Reddit Market Sentiment Analysis [15.2]
    ソーシャルメディアコンテンツに対する市場の感情分析には、金融市場とソーシャルメディアのジャーゴンの両方の知識が必要である。 我々のパイプラインは、大きな言語モデル(LLM)を用いたReddit投稿の弱い財務感情ラベルを生成する。 少数のプロンプトだけで、最終モデルは既存の教師付きモデルと同等に実行される。
    論文  参考訳(メタデータ)   (Wed, 21 Dec 2022 19:11:19 GMT)
  • 大規模言語モデルから知識を得て小さなモデルを学習、ベースラインよりも優れた性能を達成、という報告。金融領域というのも興味深い。(本論ではないがPaLM+CoTめっちゃ優秀やなという感想)

小さなデータで効率的に学習するためのDataset distillation

  • Dataset Distillation by Matching Training Trajectories [75.9]
    そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。 ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。 本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
    論文  参考訳(メタデータ)   (Tue, 22 Mar 2022 17:58:59 GMT)

ERNIE 3.0 Titan: the largest Chinese dense pre-trained model

  • ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [50.0]
    GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。 ERNIE 3.0のスケールアップ性能を調べるため、PaddlePaddleプラットフォーム上で最大2600億のパラメータを持つERNIE 3.0 Titanをトレーニング、様々なNLPタスクにおいて最先端のモデルよりも優れていた。
    論文  参考訳(メタデータ)   (Thu, 23 Dec 2021 17:35:48 GMT)
    • Baiduの巨大言語モデル、68のNLPデータセットでSoTAとのこと。
    • 学習をGPUとAscend 910を併用しヘテロジニアスな構成で行う、推論もNvidia A100-SXM4(40GB)では不可能で分散実施とインフラ部分も興味津々
    • 一度に複数の生徒をトレーニング可能なOnline Distillation Frameworkを提案しているのも興味深い

STR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルの融合

  • Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation [41.4]
    私たちは、2つの最先端のSTR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルと好適に競合できる単一のモデルを目指しています。 まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。 次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
    論文  参考訳(メタデータ)   (Mon, 26 Jul 2021 10:10:34 GMT)
    • STRとHTRは似て非なるタスクであり、通常はモデルを相互利用できない(大幅な制度劣化が発生する)。蒸留の枠組みを用い通常のロス関数と4つのロス関数(Logits’ Distillation Loss, Character Localised Hint Loss, Attention Distillation Loss, Affinity Distillation Loss)を用いてSTRをHTR統合、生徒となるモデルを構築することで性能が向上するとのこと。