- A Survey on Efficient Training of Transformers [72.3]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。 トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文 参考訳(メタデータ) (Thu, 2 Feb 2023 13:58:18 GMT) - 非常に広く用いられているTransformerについて効率的に学習を行うためのサーベイ。11ページ、引用数87と短め。
- GPT-3の学習コストが335 GPU-year、$4.6Mと推測されているとのことで、巨大なモデルを作ろうと思う場合はこの手の手法をよく調査する必要がある。