Smart Bird: 効率的なTransformer

  • Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer [51.8]
    学習可能なスパースアテンションを持つ効率的かつ効果的なトランスフォーマーであるSmart Birdを提案する。 Smart Birdでは、まず1ヘッドの低次元変換器でスケッチされた注目行列を計算します。 次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 20 Aug 2021 14:22:00 GMT)
    • 先ほどのFastformerと同じ著者によるTransformerの効率化を扱った論文。こちらは低次元、1-headなTransformerを前段に入れself attention matrixから重要なトークンを抽出、multi-headなTrasnformerにつなぐ構成。
    • こちらの計算量はO(N^2 × d + N × K × D)とのことだが、次元dが通常のTrasnformerに比べて非常に小さいので効率的とのこと。要約性能はFastfomerに比べて優れているように見える。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です