- Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [91.0]
数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。 既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。 DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
論文 参考訳(メタデータ) (Thu, 26 Oct 2023 05:01:09 GMT) - リポジトリはGitHub – FMInference/DejaVu