Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

  • Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention [32.5]
    我々は、アルゴリズムのイノベーションとハードウェアの最適化を統合する、ネイティブにトレーニング可能なスパースアテンションメカニズムであるNSAを紹介する。 NSAは動的な階層的なスパース戦略を採用し、粗粒のトークン圧縮と細粒のトークン選択を組み合わせて、グローバルなコンテキスト認識と局所的精度の両方を維持する。
    論文  参考訳(メタデータ)   (Sun, 16 Feb 2025 11:53:44 GMT)
  • DeepSeekによる階層的、スパースなアテンションの提案。通常の実装に比べ数倍以上高速。
  • 「Following the common practice in state-of-the-art LLMs, our experiments adopt a backbone combining Grouped-Query Attention (GQA) and Mixture-of-Experts (MoE), featuring 27B total parameters with 3B active parameters.」という構成で実験をしており、品質もAverageではfull attention以上という成績。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です