- What Language Model to Train if You Have One Million GPU Hours? [54.3]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。 また、多言語モデルの性能と、英語のみとの比較についても検討する。 私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (Thu, 27 Oct 2022 13:43:27 GMT)- 100万GPU Hoursの予算で最適なモデルを探索した、BLOOM(Big Science Large Open-science Open- Access Multilingual Language Model)の構築プロセスをまとめた論文
- この規模のモデル構築を行う機会があるかは置いておいて検討プロセスがとても参考になる