You Only Cache Once: Decoder-Decoder Architectures for Language Models

You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4]
大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。 YOCOはキーと値のペアを一度だけキャッシュする。全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
論文参考訳（メタデータ） (Thu, 09 May 2024 14:12:45 GMT)
KVキャッシュ・計算ともに効率化可能なDecoder-Decoderモデル。3Bでの検証結果では同規模のOpenLLaMA、StableLMを超え、高速化効果が高い長いコンテキストでのNeedle-in-a-haystackも良好とのこと。ZeroSCROLLS benchmarkで長さが伸びた時も（MambaやHybridH3と異なり）Transformer同等の結果になっているのがすごい。
リポジトリはunilm/YOCO at master · microsoft/unilm · GitHub

コメントを残す

コメントを残す コメントをキャンセル