Mixture of Hidden-Dimensions Transformer [50.4] 隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。 スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。 50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。 論文参考訳(メタデータ) (Sat, 07 Dec 2024 13:15:22 GMT)
最近よく見るMoEっぽいがグローバルな構造に踏み込んでいるタイプの研究
「It achieves 1.7% higher performance with 50% fewer activation parameters and 3.7% higher performance with a 3× parameter expansion at constant activation cost.」とのこと