Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention [32.5] 我々は、アルゴリズムのイノベーションとハードウェアの最適化を統合する、ネイティブにトレーニング可能なスパースアテンションメカニズムであるNSAを紹介する。 NSAは動的な階層的なスパース戦略を採用し、粗粒のトークン圧縮と細粒のトークン選択を組み合わせて、グローバルなコンテキスト認識と局所的精度の両方を維持する。 論文参考訳(メタデータ) (Sun, 16 Feb 2025 11:53:44 GMT)
DeepSeekによる階層的、スパースなアテンションの提案。通常の実装に比べ数倍以上高速。
「Following the common practice in state-of-the-art LLMs, our experiments adopt a backbone combining Grouped-Query Attention (GQA) and Mixture-of-Experts (MoE), featuring 27B total parameters with 3B active parameters.」という構成で実験をしており、品質もAverageではfull attention以上という成績。