LabサイズリソースでのT5モデルの構築

Training a T5 Using Lab-sized Resources [10.8]
大きなデータセットで大規模なニューラルネットワークモデルをトレーニングするのは、リソースと時間集約的です。本稿では, 研究機関が持つであろう資源を用いて, 大規模言語モデルを訓練し, (b) 妥当な時間で学習するための様々な手法を提案する。
論文参考訳（メタデータ） (Thu, 25 Aug 2022 13:55:16 GMT)
デンマーク語のT5モデルを普通のラボが持つ程度の環境で構築するための手法提案。使用したリソースは「AMD EPYC 7252 8-Core CPUs×2、 128 GB of RAM、 NVIDIA A100 (40 GB RAM) ×4」のシングルノードとのことで、ノード間分散無し・複数GPUと大規模でない環境（複数ノードまでは持っていない or AWSで簡単に構築できる）として現実的なものだと思う。
- かかった時間はsmallで91時間、largeで508時間と書かれている。仮にAWSのp4d.24xlargeを使い（GPUが8個なので）半分の時間で終わるとすると、largeの学習が8300USD（100万円ちょっと）でできることになる。
構築結果は「strombergnlp/dant5-small · Hugging Face」と「strombergnlp/dant5-large · Hugging Face」とのこと。

コメントを残す

コメントを残す コメントをキャンセル