You Only Cache Once: Decoder-Decoder Architectures for Language Models 

  • You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4]
    大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。 YOCOはキーと値のペアを一度だけキャッシュする。 全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
    論文  参考訳(メタデータ)   (Thu, 09 May 2024 14:12:45 GMT)
  • KVキャッシュ・計算ともに効率化可能なDecoder-Decoderモデル。3Bでの検証結果では同規模のOpenLLaMA、StableLMを超え、高速化効果が高い長いコンテキストでのNeedle-in-a-haystackも良好とのこと。ZeroSCROLLS benchmarkで長さが伸びた時も(MambaやHybridH3と異なり)Transformer同等の結果になっているのがすごい。
  • リポジトリはunilm/YOCO at master · microsoft/unilm · GitHub

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です