NLPデータセットに対するScaling Law

Scaling Laws Under the Microscope: Predicting Transformer Performance from Small Scale Experiments [42.8]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文参考訳（メタデータ） (Sun, 13 Feb 2022 19:13:00 GMT)
- SST-2、QNLI、MRPC、RACE、SQuAD 1.1、SQuAD 2.0、BoolQ、CoLA 、MNLIに対してパラメータ数と性能の関係を調査、Scaling Lawsは大規模化した際のパフォーマンス予測に有用では？との結論
  - ネットワークアーキテクチャやデータにもよるんじゃないかとも思いつつ、実験結果は興味深い

コメントを残す

コメントを残す コメントをキャンセル