Deliberation in Latent Space via Differentiable Cache Augmentation
Deliberation in Latent Space via Differentiable Cache Augmentation [48.2] 凍結した大規模言語モデルをオフラインコプロセッサで拡張し,キー値(kv)キャッシュで動作することを示す。 このコプロセッサは、後続の復号化の忠実性を改善するために設計された遅延埋め込みのセットでキャッシュを増強する。 キャッシュが拡張されると、デコーダは多数のトークンに対して低いパープレキシティを達成できることを示す。 論文参考訳(メタデータ) (Mon, 23 Dec 2024 18:02:25 GMT)
「This paper introduces differentiable cache augmentation, a novel method for enhancing frozen decoderonly language models by incorporating a learned coprocessor that operates on the model’s kv-cache.」という提案。coprocessorはトレーニング可能。