Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [91.0]
数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。 DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
論文参考訳（メタデータ） (Thu, 26 Oct 2023 05:01:09 GMT)
リポジトリはGitHub – FMInference/DejaVu

コメントを残す

コメントを残す コメントをキャンセル