- MH-MoE:Multi-Head Mixture-of-Experts [119.5]
MH-MoE(Multi-Head Mixture-of-Experts)は,マルチヘッド機構を用いて, 異なる専門家内の様々な表現空間からの情報を集約し, 優れた性能を示す。 FLOPとパラメータパリティの両方をスパースミキサーモデルで維持するMH-MoEの新たな実装を提案する。
論文 参考訳(メタデータ) (Mon, 25 Nov 2024 09:05:36 GMT) - Fugu-MT 論文翻訳(概要): Multi-Head Mixture-of-Experts の実装の改善
- 「In this paper, we present a novel implementation of MH-MoE that maintains both FLOPs and parameter parity with sparse Mixture of Experts models.」