Sparse Expert Modelの効率的設計 – arXiv最新論文の紹介

Designing Effective Sparse Expert Models [45.2]
MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。私たちの仕事はこれらの問題に焦点を当て、デザインガイドとして機能し、推論(SuperGLUE, ARC Easy, ARC Challenge)、要約(XSum, CNN-DM)、クローズドブック質問応答(WebQA, Natural Questions)、敵対的に構築されたタスク(Winogrande, ANLI R3)など、さまざまなタスクの集合において、トランスファーラーニングにおける最先端のパフォーマンスを初めて達成する。
論文参考訳（メタデータ） (Thu, 17 Feb 2022 21:39:10 GMT)
- 大規模スパースモデルの不安定さを解消、様々なタスクでSoTAとのこと。
- リポジトリはGitHub – tensorflow/mesh: Mesh TensorFlow: Model Parallelism Made Easier

コメントを残す

コメントを残す コメントをキャンセル