ニューラル機械翻訳におけるScaling Law、クロスエントロピーと翻訳の質

  • Scaling Laws for Neural Machine Translation [21.8]
    モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。 また,クロスエントロピー損失と翻訳の質との関係についても検討した。
    論文  参考訳(メタデータ)   (Thu, 16 Sep 2021 06:15:20 GMT)
    • ニューラル機械翻訳におけるモデルサイズとモデル品質の関係を検証した論文。エンコーダとデコーダに着目した場合はそれなりにうまくいく式が導出できたとのこと(逆に言うとモデル内パラメータ総数との関係は十分に明らかとは言えない)。それによって最適なサイズを決められる。
      • デコーダの層数よりもエンコーダの層数を多くした方が良いのでは?という議論が裏付けられている。
    • Target言語→Src言語でテストセットを作った場合はモデルサイズの増加がlossとBLEU双方が改善され、逆の場合はlossが改善する一方でBLEUの改善は頭打ちになる。
      • 機械翻訳の多様性の欠如を示しているのでは。とのこと。(同時にBack Translationが一定程度有効という裏付けでもある。)
    • WEBからのクロールデータで機械翻訳モデルを作る際、WEBデータに機械翻訳によるテキストが多数入っている事の問題も指摘している。特にリソースの少ない言語ではすでに問題になっているとの指摘。
      • FuguMTではある程度はフィルタリングしている。テキストの類似性を見るようなアプローチは効果が薄く、URLや原文の構成単語に頼る方がよかったりするので簡単ではないとの印象。
      • 機械翻訳を行っているサイトにつけるフラグとかあったら知りたい。