Mixture of Hidden-Dimensions Transformer 

  • Mixture of Hidden-Dimensions Transformer [50.4]
    隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。 スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。 50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
    論文  参考訳(メタデータ)   (Sat, 07 Dec 2024 13:15:22 GMT)
  • 最近よく見るMoEっぽいがグローバルな構造に踏み込んでいるタイプの研究
  • 「It achieves 1.7% higher performance with 50% fewer activation parameters and 3.7% higher performance with a 3× parameter expansion at constant activation cost.」とのこと

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です