MINITRON / Compact Language Models via Pruning and Knowledge Distillation

  • Compact Language Models via Pruning and Knowledge Distillation [61.6]
    ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。 すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
    論文  参考訳(メタデータ)   (Fri, 19 Jul 2024 21:47:57 GMT)
  • Nemotron 15Bから得られた高性能な8Bモデル及び4Bモデル。pruningとdistillationを組み合わせたベストプラクティスを報告。Gemma2, CriticGPT – arXiv最新論文の紹介 (devneko.jp)のときも蒸留が用いられていたが、大規模なモデルから小規模高性能なモデルを得るような手順が一般的になるのだろうか・・・
  • リポジトリはGitHub – NVlabs/Minitron: A family of compressed models obtained via pruning and knowledge distillation

SOCRATIC COT

  • Distilling Reasoning Capabilities into Smaller Language Models [83.7]
    思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。 しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。 本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 18 May 2023 04:44:51 GMT)
  • 大規模なモデルから得たCoTの出力を小さなモデルに適用する取り組み。CoTをより細かいQAに分解し、Question GeneratorモデルとQAモデルを学習する仕組みのよう。小さなモデル (GPT-2 large) で10倍のモデル (GPT-3 6B)をout performしたとのこと。
  • リポジトリはGitHub – kumar-shridhar/Distiiling-LM: The code for the paper : Distilling Reasoning Capabilities into Smaller Language Models

What do LLMs Know about Financial Markets? A Case Study on Reddit Market Sentiment Analysis 

  • What do LLMs Know about Financial Markets? A Case Study on Reddit Market Sentiment Analysis [15.2]
    ソーシャルメディアコンテンツに対する市場の感情分析には、金融市場とソーシャルメディアのジャーゴンの両方の知識が必要である。 我々のパイプラインは、大きな言語モデル(LLM)を用いたReddit投稿の弱い財務感情ラベルを生成する。 少数のプロンプトだけで、最終モデルは既存の教師付きモデルと同等に実行される。
    論文  参考訳(メタデータ)   (Wed, 21 Dec 2022 19:11:19 GMT)
  • 大規模言語モデルから知識を得て小さなモデルを学習、ベースラインよりも優れた性能を達成、という報告。金融領域というのも興味深い。(本論ではないがPaLM+CoTめっちゃ優秀やなという感想)

小さなデータで効率的に学習するためのDataset distillation

  • Dataset Distillation by Matching Training Trajectories [75.9]
    そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。 ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。 本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
    論文  参考訳(メタデータ)   (Tue, 22 Mar 2022 17:58:59 GMT)

ERNIE 3.0 Titan: the largest Chinese dense pre-trained model

  • ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [50.0]
    GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。 ERNIE 3.0のスケールアップ性能を調べるため、PaddlePaddleプラットフォーム上で最大2600億のパラメータを持つERNIE 3.0 Titanをトレーニング、様々なNLPタスクにおいて最先端のモデルよりも優れていた。
    論文  参考訳(メタデータ)   (Thu, 23 Dec 2021 17:35:48 GMT)
    • Baiduの巨大言語モデル、68のNLPデータセットでSoTAとのこと。
    • 学習をGPUとAscend 910を併用しヘテロジニアスな構成で行う、推論もNvidia A100-SXM4(40GB)では不可能で分散実施とインフラ部分も興味津々
    • 一度に複数の生徒をトレーニング可能なOnline Distillation Frameworkを提案しているのも興味深い

STR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルの融合

  • Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation [41.4]
    私たちは、2つの最先端のSTR(Scene Text Recognition)モデルとHTR(Handwriting Text Recognition)モデルと好適に競合できる単一のモデルを目指しています。 まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。 次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
    論文  参考訳(メタデータ)   (Mon, 26 Jul 2021 10:10:34 GMT)
    • STRとHTRは似て非なるタスクであり、通常はモデルを相互利用できない(大幅な制度劣化が発生する)。蒸留の枠組みを用い通常のロス関数と4つのロス関数(Logits’ Distillation Loss, Character Localised Hint Loss, Attention Distillation Loss, Affinity Distillation Loss)を用いてSTRをHTR統合、生徒となるモデルを構築することで性能が向上するとのこと。