Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs

Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [87.0]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文参考訳（メタデータ） (Mon, 29 Jan 2024 06:25:00 GMT)
LLMの推論で課題となるKVキャッシュの圧縮方法の提案。タスクによっても異なるが50%のメモリ圧縮は可能そうに見える。

コメントを残す

コメントを残す コメントをキャンセル