Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

  • Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [91.0]
    数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。 既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。 DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
    論文  参考訳(メタデータ)   (Thu, 26 Oct 2023 05:01:09 GMT)
  • リポジトリはGitHub – FMInference/DejaVu

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です