- Designing Effective Sparse Expert Models [45.2]
MoE(Mixture-of-Experts)とSwitch Transformerは、より大きく、より有能な言語モデルへのエネルギー効率の高い経路として提案されている。 しかし、さまざまな自然言語タスクの最先端化は、微調整中にトレーニングの不安定さと不確実な品質によって妨げられている。 私たちの仕事はこれらの問題に焦点を当て、デザインガイドとして機能し、推論(SuperGLUE, ARC Easy, ARC Challenge)、要約(XSum, CNN-DM)、クローズドブック質問応答(WebQA, Natural Questions)、敵対的に構築されたタスク(Winogrande, ANLI R3)など、さまざまなタスクの集合において、トランスファーラーニングにおける最先端のパフォーマンスを初めて達成する。
論文 参考訳(メタデータ) (Thu, 17 Feb 2022 21:39:10 GMT)- 大規模スパースモデルの不安定さを解消、様々なタスクでSoTAとのこと。
- リポジトリはGitHub – tensorflow/mesh: Mesh TensorFlow: Model Parallelism Made Easier