You Only Cache Once: Decoder-Decoder Architectures for Language Models
You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4] 大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。 YOCOはキーと値のペアを一度だけキャッシュする。 全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。 論文参考訳(メタデータ) (Thu, 09 May 2024 14:12:45 GMT)