Smart Bird: 効率的なTransformer

  • Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer [51.8]
    学習可能なスパースアテンションを持つ効率的かつ効果的なトランスフォーマーであるSmart Birdを提案する。 Smart Birdでは、まず1ヘッドの低次元変換器でスケッチされた注目行列を計算します。 次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 20 Aug 2021 14:22:00 GMT)
    • 先ほどのFastformerと同じ著者によるTransformerの効率化を扱った論文。こちらは低次元、1-headなTransformerを前段に入れself attention matrixから重要なトークンを抽出、multi-headなTrasnformerにつなぐ構成。
    • こちらの計算量はO(N^2 × d + N × K × D)とのことだが、次元dが通常のTrasnformerに比べて非常に小さいので効率的とのこと。要約性能はFastfomerに比べて優れているように見える。

Fastformer: 効率的で長いシーケンスを扱える構造

  • Fastformer: Additive Attention is All You Need [51.8]
    本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。 Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。 このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 20 Aug 2021 09:44:44 GMT)
    • Transformerの計算量 O(N^2 ×d)から O(N ×d)に抑えた構造、Fastformerを提案、長めのテキスト分類や要約タスクの長文対応で通常のTransformerやその効率化を狙った実装より性能が優れているよう。現時点でUniUM-FastformerがMIND Leaderboardでトップの性能。
    • query vectorとkey vectorの取り扱いを工夫しているがこの構造でも情報がうまく残るのが興味深い。