You Only Cache Once: Decoder-Decoder Architectures for Language Models 

  • You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4]
    大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。 YOCOはキーと値のペアを一度だけキャッシュする。 全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
    論文  参考訳(メタデータ)   (Thu, 09 May 2024 14:12:45 GMT)
  • KVキャッシュ・計算ともに効率化可能なDecoder-Decoderモデル。3Bでの検証結果では同規模のOpenLLaMA、StableLMを超え、高速化効果が高い長いコンテキストでのNeedle-in-a-haystackも良好とのこと。ZeroSCROLLS benchmarkで長さが伸びた時も(MambaやHybridH3と異なり)Transformer同等の結果になっているのがすごい。
  • リポジトリはunilm/YOCO at master · microsoft/unilm · GitHub

1 bit(1.58 bit)なLLMとHAWK・Griffin

LLMにおいて高速化は非常に重要。先週バズった「The Era of 1-bit LLMs」と「Griffin」は異なるアプローチではあるが今の標準レシピを改善していく取り組み。

  • Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models [101.7]
    我々は、ゲート線形再帰を持つRNNのHawkと、ゲート線形再帰と局所的な注意を混合したハイブリッドモデルGriffinを提案する。 ホークは下流でのマンバのパフォーマンスを上回り、グリフィンは6倍以上のトークンで訓練されているにもかかわらず、ラマ-2のパフォーマンスに匹敵する。 Griffinを14Bパラメータまで拡張し、効率的な分散トレーニングのためにモデルをシャーディングする方法を説明します。
    論文  参考訳(メタデータ)   (Thu, 29 Feb 2024 18:24:46 GMT)
  • RNNベースのHAWK、ハイブリッドアーキテクチャのGriffinの提案。HAWKは非常に高速だが、性能は同規模のTransformerと競合するレベル(Mambaより優れているよう)。Griffinはそれをoutperformしているように見える。7Bや14Bと大規模な検証をしているあたりさすがGoogle DeepMind。

BitNet

  • BitNet: Scaling 1-bit Transformers for Large Language Models [119.2]
    大規模言語モデル用に設計されたスケーラブルで安定した1ビットトランスフォーマーアーキテクチャであるBitNetを紹介する。 言語モデリングの実験結果から,BitNetはメモリフットプリントとエネルギー消費を大幅に削減しつつ,競争性能を向上することが示された。
    論文  参考訳(メタデータ)   (Tue, 17 Oct 2023 17:59:15 GMT)
  • LLMのための 1-bit Transformer architectureの提案。30Bとかなり大規模な設定で比較検証が行われており有効そうに見える。quantizationと比べて優勢があるとのこと。
  • プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

Smart Bird: 効率的なTransformer

  • Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer [51.8]
    学習可能なスパースアテンションを持つ効率的かつ効果的なトランスフォーマーであるSmart Birdを提案する。 Smart Birdでは、まず1ヘッドの低次元変換器でスケッチされた注目行列を計算します。 次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 20 Aug 2021 14:22:00 GMT)
    • 先ほどのFastformerと同じ著者によるTransformerの効率化を扱った論文。こちらは低次元、1-headなTransformerを前段に入れself attention matrixから重要なトークンを抽出、multi-headなTrasnformerにつなぐ構成。
    • こちらの計算量はO(N^2 × d + N × K × D)とのことだが、次元dが通常のTrasnformerに比べて非常に小さいので効率的とのこと。要約性能はFastfomerに比べて優れているように見える。

Fastformer: 効率的で長いシーケンスを扱える構造

  • Fastformer: Additive Attention is All You Need [51.8]
    本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。 Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。 このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 20 Aug 2021 09:44:44 GMT)
    • Transformerの計算量 O(N^2 ×d)から O(N ×d)に抑えた構造、Fastformerを提案、長めのテキスト分類や要約タスクの長文対応で通常のTransformerやその効率化を狙った実装より性能が優れているよう。現時点でUniUM-FastformerがMIND Leaderboardでトップの性能。
    • query vectorとkey vectorの取り扱いを工夫しているがこの構造でも情報がうまく残るのが興味深い。