Transformers without Normalization – arXiv最新論文の紹介

Transformers without Normalization [58.8]
トランスフォーマーの正規化レイヤのドロップイン置換として、DyT($x$) = tanh(alpha $x$)$という要素演算式であるDynamic Tanh(DyT)を導入する。我々は、認識から生成、教師付き学習、教師付き学習、コンピュータビジョンから言語モデルまで、様々な環境において、DyTを用いたトランスフォーマーの有効性を検証する。
論文参考訳（メタデータ） (Thu, 13 Mar 2025 17:59:06 GMT)
「We introduce Dynamic Tanh (DyT), an element-wise operation DyT(x) = tanh(αx), as a drop-in replacement for normalization layers in Transformers.」とのこと。知見として興味深く、「DyT improves training and inference speed, making it a candidate for efficiency-oriented network design.」と計算コスト的にも有利とのこと。

コメントを残す

コメントを残す コメントをキャンセル