Fastformer: 効率的で長いシーケンスを扱える構造

  • Fastformer: Additive Attention is All You Need [51.8]
    本稿では,加法的注意に基づく効率的なトランスフォーマーモデルであるFastformerを提案する。 Fastformerでは、トークン間のペアワイズインタラクションをモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンションメカニズムを使用します。 このように、Fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 20 Aug 2021 09:44:44 GMT)
    • Transformerの計算量 O(N^2 ×d)から O(N ×d)に抑えた構造、Fastformerを提案、長めのテキスト分類や要約タスクの長文対応で通常のTransformerやその効率化を狙った実装より性能が優れているよう。現時点でUniUM-FastformerがMIND Leaderboardでトップの性能。
    • query vectorとkey vectorの取り扱いを工夫しているがこの構造でも情報がうまく残るのが興味深い。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です