Primer(PRIMitives searched transformER): 言語モデルのための効率的なアーキテクチャ

Primer: Searching for Efficient Transformers for Language Modeling [79.3]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文参考訳（メタデータ） (Fri, 17 Sep 2021 17:50:39 GMT)
- Transformerの構造に手を入れ効率の高いアーキテクチャを進化的な手法で探索。500MパラメータのT5相当の実装で4.2倍の学習コスト削減を達成するPrimerというアーキテクチャを見つけたとの報告。主要な変更点は「Squared ReLU」と「MDHA: Multi-DConv-Head Attention （深さ方向のconvolution layerをQ, K, V projectionの後に配置）」。Primerはこの2点以外にも様々な修正が加えられているが、この変更のみを行ったバージョン（Primer-EZ）でも高い効果があるとのこと。著者はまずPrimer-EZで高速化効果を試し必要に応じて完全なPrimerを導入することを推奨している。
- リポジトリはhttps://github.com/google-research/google-research/tree/master/primer

コメントを残す

コメントを残す コメントをキャンセル