- Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [87.0]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。 我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。 認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (Mon, 29 Jan 2024 06:25:00 GMT) - LLMの推論で課題となるKVキャッシュの圧縮方法の提案。タスクによっても異なるが50%のメモリ圧縮は可能そうに見える。