Mixture of Hidden-Dimensions Transformer – arXiv最新論文の紹介

Mixture of Hidden-Dimensions Transformer [50.4]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。 50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文参考訳（メタデータ） (Sat, 07 Dec 2024 13:15:22 GMT)
最近よく見るMoEっぽいがグローバルな構造に踏み込んでいるタイプの研究
「It achieves 1.7% higher performance with 50% fewer activation parameters and 3.7% higher performance with a 3× parameter expansion at constant activation cost.」とのこと

コメントを残す

コメントを残す コメントをキャンセル