LabサイズリソースでのT5モデルの構築

  • Training a T5 Using Lab-sized Resources [10.8]
    大きなデータセットで大規模なニューラルネットワークモデルをトレーニングするのは、リソースと時間集約的です。 本稿では, 研究機関が持つであろう資源を用いて, 大規模言語モデルを訓練し, (b) 妥当な時間で学習するための様々な手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 25 Aug 2022 13:55:16 GMT)
  • デンマーク語のT5モデルを普通のラボが持つ程度の環境で構築するための手法提案。使用したリソースは 「AMD EPYC 7252 8-Core CPUs×2、 128 GB of RAM、 NVIDIA A100 (40 GB RAM) ×4」のシングルノードとのことで、ノード間分散無し・複数GPUと大規模でない環境(複数ノードまでは持っていない or AWSで簡単に構築できる)として現実的なものだと思う。
    • かかった時間はsmallで91時間、largeで508時間と書かれている。仮にAWSのp4d.24xlargeを使い(GPUが8個なので)半分の時間で終わるとすると、largeの学習が8300USD(100万円ちょっと)でできることになる。
  • 構築結果は「strombergnlp/dant5-small · Hugging Face」と「strombergnlp/dant5-large · Hugging Face」とのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です