DeepNet: 1000層のTransformer – arXiv最新論文の紹介

DeepNet: Scaling Transformers to 1,000 Layers [106.3]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文参考訳（メタデータ） (Tue, 1 Mar 2022 15:36:38 GMT)
- deepnormを導入することでTransformerを1000層まで深くできるとの報告。機械翻訳において有望な結果。多言語のM2M-100を大きく上回る性能を達成しているように見える。
- リポジトリはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

コメントを残す

コメントを残す コメントをキャンセル