Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.7] ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。 本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。 主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。 論文参考訳(メタデータ) (Wed, 07 May 2025 15:46:36 GMT)
「Our system optimizations focus on Expert Parallelism and memory management, significantly lowering communication and activation overhead across 6K NPUs. These innovations enable a 30.0% MFU, demonstrating Ascend NPUs’ capability to support full-scale training of large-scale sparse LLMs, e g , Pangu Ultra MoE, with comparable performance as DeepSeek R1.」とのことでNVIDIAのGPUに頼らずとも最先端モデルを構築可能と主張しているように見える。