Panguシリーズの論文

HuaweiからPangu関連の論文が複数発表されている。いずれも最新モデルの内部動作が記載されており大変参考になる。そして開発元だからがAscend NPU推しがすごい。

Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.8]
大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
論文参考訳（メタデータ） (Mon, 26 May 2025 15:57:08 GMT)

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity [105.5]
MoGEはトークンを制約し、事前に定義された各専門家グループ内で同じ数の専門家を起動させる。 Pangu Pro MoEは1カード当たり1148トークン/秒を実現し、投機的アクセラレーションにより1カードあたり1528トークン/秒にさらに改善することができる。
論文参考訳（メタデータ） (Tue, 27 May 2025 16:40:21 GMT)

Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [94.5]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (Wed, 28 May 2025 14:03:02 GMT)

コメントを残すコメントをキャンセル