Training Compute-Optimal Large Language Models [54.0] 私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。 計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。 チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る 論文参考訳(メタデータ) (Tue, 29 Mar 2022 13:38:03 GMT)
「Gopher is substantially over-sized and estimate that for the same compute budget a smaller model trained on more data will perform better.」という指摘が興味深く、モデルサイズに比べてデータが足りていない状況が多発していそう。