Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

  • Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [91.0]
    数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。 既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。 DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
    論文  参考訳(メタデータ)   (Thu, 26 Oct 2023 05:01:09 GMT)
  • リポジトリはGitHub – FMInference/DejaVu

FLM-101B 限られた予算でのLLM構築

  • FLM-101B: An Open LLM and How to Train It with $100K Budget [64.8]
    大規模言語モデル(LLM)は、NLPおよびマルチモーダルタスクにおいて顕著な成功を収めた。 LLMは違法に高価であり、少数のメジャープレイヤーだけがトレーニングを受けることが可能である。 101B パラメータと 0.31TB トークンを持つ LLM が 1K の予算でトレーニング可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 7 Sep 2023 17:07:36 GMT)
  • 限られた予算での大規模言語モデル構築を扱った論文。100B+パラメータのモデルを100,000 USDで作り、他の主要モデルと競合的な性能とのこと。モデル構築戦略が非常に興味深い。(データ側の話が少ないような。。。)
  • モデルはCofeAI/FLM-101B · Hugging Faceで公開され、Apache-2、英語・中国語のバイリンガル

Computation-efficient Deep Learning for Computer Vision: A Survey

  • Computation-efficient Deep Learning for Computer Vision: A Survey [121.8]
    ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。 ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。 新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
    論文  参考訳(メタデータ)   (Sun, 27 Aug 2023 03:55:28 GMT)
  • 効率的な画像処理モデルに関するサーベイ
  •  「Efficient Backbone Models / Dynamic Deep Networks」→「Task-specialized Efficient Models」→「Model Compression Techniques」→「Efficient Deployment on Hardware」と様々なレイヤで調査がされている。

A Survey on Efficient Training of Transformers 

  • A Survey on Efficient Training of Transformers [72.3]
    この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。 トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
    論文  参考訳(メタデータ)   (Thu, 2 Feb 2023 13:58:18 GMT)
  • 非常に広く用いられているTransformerについて効率的に学習を行うためのサーベイ。11ページ、引用数87と短め。
  • GPT-3の学習コストが335 GPU-year、$4.6Mと推測されているとのことで、巨大なモデルを作ろうと思う場合はこの手の手法をよく調査する必要がある。

Cramming: Training a Language Model on a Single GPU in One Day

  • Cramming: Training a Language Model on a Single GPU in One Day [64.2]
    言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。 我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。 この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
    論文  参考訳(メタデータ)   (Wed, 28 Dec 2022 18:59:28 GMT)
  • 自然言語処理のタスクについて1GPU dayでどこまで性能を伸ばせるかを検証した論文。非常に興味深い設定で広範な実験がされている。
  • データセットによる差、1 GPU dayとはいえ、GPUの種類(≒計算資源)による差についても面白い。
  • リポジトリはGitHub – JonasGeiping/cramming: Cramming the training of a (BERT-type) language model into limited compute.

DeepSpeed Data Efficiency

  • DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing [31.7]
    DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。 カリキュラム学習による効率的なデータサンプリングと、ランダムなレイヤワイドトークンドロップによる効率的なデータルーティングを提供する。 GPT-3 1.3B と BERT-Large 言語モデルの事前学習にソリューションを適用することで、1/2のデータと1/2の時間で同様のモデル品質を実現することができる。
    論文  参考訳(メタデータ)   (Wed, 7 Dec 2022 12:27:28 GMT)
  • データ的にも計算資源的にも効率的な学習フレームワークの提案。
  • リポジトリはmicrosoft/DeepSpeed: DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective. (github.com)

Deep Model Assembling

  • Deep Model Assembling [31.9]
    本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。 大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。 すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。 これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
    論文  参考訳(メタデータ)   (Thu, 8 Dec 2022 08:04:06 GMT)
  • Deep Learningでの divide-and-conquer strategy 
  • 何となくうまくいきそうという感想と、なんでこれつながるんだろうという感想と不思議な感覚
  • リポジトリはLeapLabTHU/Model-Assembling: Code release for Deep Model Assembling (https://arxiv.org/abs/2212.04129) (github.com)

TorchScale: Transformers at Scale

  • TorchScale: Transformers at Scale [109.3]
    スケーリングに関するほとんどのオープンソースライブラリは、並列化の改善によるトレーニングや推論の改善に重点を置いている。 私たちは、研究者や開発者がTransformerを効率的にスケールアップできるオープンソースツールキットであるTorchScaleを紹介します。
    論文  参考訳(メタデータ)   (Wed, 23 Nov 2022 17:58:51 GMT)
  • Transformerを効率的にスケールアップするツール
  • リポジトリはmicrosoft/torchscale: Transformers at any scale (github.com)

A Compact Pretraining Approach for Neural Language Models

  • A Compact Pretraining Approach for Neural Language Models [21.8]
    事前学習したNLMは、データのコンパクトなサブセットから、ドメイン内の情報をより効率的に、より高速に学習できることを示す。 抽象要約と抽出キーワードを組み合わせた非構造化データから,これらのコンパクトな部分集合を構築する。 我々の戦略は、バニラ予習に比べて、予習時間を最大5倍削減します。
    論文  参考訳(メタデータ)   (Mon, 29 Aug 2022 00:54:42 GMT)
    • 要約結果&重要なキーワードの組み合わせにより全データ&ランダムマスクな方針よりも高速に学習(ターゲットドメインへの適合)ができるとの報告
      • ドメインを合わせるために重要な部分のみを使うというのは直感的には良さそうな方針に思えるがBART要約 & KeyBERTで作ってそうなるのかはどうなんだろう。実験結果ではランダムマスクに勝っているのでうまく動いているっぽいが。。。

言語モデルのリサイクル

  • Embedding Recycling for Language Models [38.1]
    我々は, 埋込みリサイクル(ER)によるそのような環境下での計算コストの削減について検討する。 我々は、事前訓練されたモデルから中間層の出力をキャッシュし、残りのレイヤを微調整して新しいタスクを行う方法を提案する。 本研究では,本手法が学習中の100%の高速化,55~86%の推論速度向上を実現し,学術領域におけるテキスト分類とエンティティ認識タスクの精度への影響を無視できることを示した。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 11 Jul 2022 16:36:14 GMT)
    • layerを凍結させるのではなく、出力をキャッシュして学習等を高速化する仕組みの提案。(当然ながら)最初にデータすべてのrepresantaionを計算する必要がある。
    • リポジトリはGitHub – allenai/EmbeddingRecycling