DeepNet: 1000層のTransformer

  • DeepNet: Scaling Transformers to 1,000 Layers [106.3]
    トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。 詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。 トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
    論文  参考訳(メタデータ)   (Tue, 1 Mar 2022 15:36:38 GMT)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です