DoReMi: Domain Reweighting with Minimax Optimization
DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining [172.3] ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。 DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。 次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。 論文参考訳(メタデータ) (Wed, 17 May 2023 17:58:13 GMT)
データセットのドメインに対するウェイトを調整する手法の提案。小さなモデルで試行後に大きなモデルでのドメインウェイトを決めるアプトローチで「DoReMi improves average one-shot downstream accuracy by 6.5% and reaches the baseline accuracy 2.6x faster when pretraining on The Pile.」ととても効果的そう
The Pileを用いた実験でWikipediaのウェイトがベースラインよりも低くなっているにもかかわらず、Wikipedia由来のデータセットでのdown stream性能が上がっているのが面白い。なぜなんだろう・・・?