- DeepNet: Scaling Transformers to 1,000 Layers [106.3]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。 詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。 トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (Tue, 1 Mar 2022 15:36:38 GMT)- deepnormを導入することでTransformerを1000層まで深くできるとの報告。機械翻訳において有望な結果。多言語のM2M-100を大きく上回る性能を達成しているように見える。
- リポジトリはGitHub – microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities