- Cramming: Training a Language Model on a Single GPU in One Day [64.2]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。 我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。 この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (Wed, 28 Dec 2022 18:59:28 GMT) - 自然言語処理のタスクについて1GPU dayでどこまで性能を伸ばせるかを検証した論文。非常に興味深い設定で広範な実験がされている。
- データセットによる差、1 GPU dayとはいえ、GPUの種類(≒計算資源)による差についても面白い。
- リポジトリはGitHub – JonasGeiping/cramming: Cramming the training of a (BERT-type) language model into limited compute.