Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

  • Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention [32.5]
    我々は、アルゴリズムのイノベーションとハードウェアの最適化を統合する、ネイティブにトレーニング可能なスパースアテンションメカニズムであるNSAを紹介する。 NSAは動的な階層的なスパース戦略を採用し、粗粒のトークン圧縮と細粒のトークン選択を組み合わせて、グローバルなコンテキスト認識と局所的精度の両方を維持する。
    論文  参考訳(メタデータ)   (Sun, 16 Feb 2025 11:53:44 GMT)
  • DeepSeekによる階層的、スパースなアテンションの提案。通常の実装に比べ数倍以上高速。
  • 「Following the common practice in state-of-the-art LLMs, our experiments adopt a backbone combining Grouped-Query Attention (GQA) and Mixture-of-Experts (MoE), featuring 27B total parameters with 3B active parameters.」という構成で実験をしており、品質もAverageではfull attention以上という成績。

Attentionは説明に使用できない

  • Attention cannot be an Explanation [99.4]
    私たちは、人間の信頼と信頼を高める上で、注意に基づく説明がどの程度効果的か尋ねる。 我々は,注意に基づく説明が適している程度を質的かつ定量的に評価することを目的とした広範囲な人間実験を行った。 実験の結果,注意は説明として利用できないことが明らかとなった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 26 Jan 2022 21:34:05 GMT)
    • 人間の評価結果をもとにAttention(モデルが注視している部分の表示によって説明しようするタイプの手法)は説明に使用できないと結論した論文。様々な立場がありうるが一つの結果として注意すべきと思う。

Computer Visionにおけるアテンションのサーベイ

  • Attention Mechanisms in Computer Vision: A Survey [75.6]
    本稿では,コンピュータビジョンにおける様々な注意機構について概観する。 チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。 我々は注意機構研究の今後の方向性を提案する。
    論文  参考訳(メタデータ)   (Mon, 15 Nov 2021 09:18:40 GMT)