Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs

Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.7]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文参考訳（メタデータ） (Fri, 07 Mar 2025 04:43:39 GMT)
Ling Team, AI@Ant GroupによるLLM。コストパフォーマンスに優れるトレーニング方針が特徴的で異なる構成のクラスタが複数ある状況を想定したレシピになっている。大規模構成のLing Plusを含めモデルが公開されている。
リポジトリはinclusionAI (inclusionAI)

コメントを残す

コメントを残す コメントをキャンセル