Mixtures of Expertsと高密度モデルの比較

  • Efficient Large Scale Language Modeling with Mixtures of Experts [61.5]
    エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。 本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
    論文  参考訳(メタデータ)   (Mon, 20 Dec 2021 17:05:11 GMT)
    • 最近よく見る疎なモデル(Mixtures of Experts)と密なモデルを比較、タスクやドメインにもよるが疎なモデルは4分の1の計算量で密なモデルと同等の性能を発揮できるのでは?としている。
    • MoEモデル(1.1Tパラメータ)と計算量的に等価な密モデル(6.7Bパラメータ)は一貫して優れていて、エネルギー消費を減らすためのアプローチとしても有効とのこと。
    • リポジトリはfairseq/examples/moe_lm at main · pytorch/fairseq · GitHub

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です