DeepSpeed Data Efficiency

  • DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing [31.7]
    DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。 カリキュラム学習による効率的なデータサンプリングと、ランダムなレイヤワイドトークンドロップによる効率的なデータルーティングを提供する。 GPT-3 1.3B と BERT-Large 言語モデルの事前学習にソリューションを適用することで、1/2のデータと1/2の時間で同様のモデル品質を実現することができる。
    論文  参考訳(メタデータ)   (Wed, 7 Dec 2022 12:27:28 GMT)
  • データ的にも計算資源的にも効率的な学習フレームワークの提案。
  • リポジトリはmicrosoft/DeepSpeed: DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective. (github.com)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です