Mixtures of Expertsと高密度モデルの比較

Efficient Large Scale Language Modeling with Mixtures of Experts [61.5]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文参考訳（メタデータ） (Mon, 20 Dec 2021 17:05:11 GMT)
- 最近よく見る疎なモデル（Mixtures of Experts）と密なモデルを比較、タスクやドメインにもよるが疎なモデルは4分の1の計算量で密なモデルと同等の性能を発揮できるのでは？としている。
- MoEモデル(1.1Tパラメータ)と計算量的に等価な密モデル(6.7Bパラメータ)は一貫して優れていて、エネルギー消費を減らすためのアプローチとしても有効とのこと。
- リポジトリはfairseq/examples/moe_lm at main · pytorch/fairseq · GitHub

コメントを残す

コメントを残す コメントをキャンセル