NLPデータセットに対するScaling Law

  • Scaling Laws Under the Microscope: Predicting Transformer Performance from Small Scale Experiments [42.8]
    本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。 スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。 スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
    論文  参考訳(メタデータ)   (Sun, 13 Feb 2022 19:13:00 GMT)
    • SST-2、QNLI、MRPC、RACE、SQuAD 1.1、SQuAD 2.0、BoolQ、CoLA 、MNLIに対してパラメータ数と性能の関係を調査、Scaling Lawsは大規模化した際のパフォーマンス予測に有用では?との結論
      • ネットワークアーキテクチャやデータにもよるんじゃないかとも思いつつ、実験結果は興味深い

ニューラル機械翻訳におけるScaling Law、クロスエントロピーと翻訳の質

  • Scaling Laws for Neural Machine Translation [21.8]
    モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。 また,クロスエントロピー損失と翻訳の質との関係についても検討した。
    論文  参考訳(メタデータ)   (Thu, 16 Sep 2021 06:15:20 GMT)
    • ニューラル機械翻訳におけるモデルサイズとモデル品質の関係を検証した論文。エンコーダとデコーダに着目した場合はそれなりにうまくいく式が導出できたとのこと(逆に言うとモデル内パラメータ総数との関係は十分に明らかとは言えない)。それによって最適なサイズを決められる。
      • デコーダの層数よりもエンコーダの層数を多くした方が良いのでは?という議論が裏付けられている。
    • Target言語→Src言語でテストセットを作った場合はモデルサイズの増加がlossとBLEU双方が改善され、逆の場合はlossが改善する一方でBLEUの改善は頭打ちになる。
      • 機械翻訳の多様性の欠如を示しているのでは。とのこと。(同時にBack Translationが一定程度有効という裏付けでもある。)
    • WEBからのクロールデータで機械翻訳モデルを作る際、WEBデータに機械翻訳によるテキストが多数入っている事の問題も指摘している。特にリソースの少ない言語ではすでに問題になっているとの指摘。
      • FuguMTではある程度はフィルタリングしている。テキストの類似性を見るようなアプローチは効果が薄く、URLや原文の構成単語に頼る方がよかったりするので簡単ではないとの印象。
      • 機械翻訳を行っているサイトにつけるフラグとかあったら知りたい。