Primer(PRIMitives searched transformER): 言語モデルのための効率的なアーキテクチャ

  • Primer: Searching for Efficient Transformers for Language Modeling [79.3]
    大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。 ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。 私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
    論文  参考訳(メタデータ)   (Fri, 17 Sep 2021 17:50:39 GMT)
    • Transformerの構造に手を入れ効率の高いアーキテクチャを進化的な手法で探索。500MパラメータのT5相当の実装で4.2倍の学習コスト削減を達成するPrimerというアーキテクチャを見つけたとの報告。主要な変更点は「Squared ReLU」と「MDHA: Multi-DConv-Head Attention (深さ方向のconvolution layerをQ, K, V projectionの後に配置)」。Primerはこの2点以外にも様々な修正が加えられているが、この変更のみを行ったバージョン(Primer-EZ)でも高い効果があるとのこと。著者はまずPrimer-EZで高速化効果を試し必要に応じて完全なPrimerを導入することを推奨している。
    • リポジトリはhttps://github.com/google-research/google-research/tree/master/primer

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です