文字ベースの機械翻訳を使わないのはなぜか?

  • Why don’t people use character-level machine translation? [69.5]
    文字レベルシステムがサブワードシステムに匹敵する証拠があるにもかかわらず、機械翻訳競争において競合する設定ではほとんど使われない。 文字レベルのMTシステムは、しばしばモチベーションが高いにもかかわらず、ドメインの堅牢性も、モルフォロジーの一般化も良くない。 一方、ソース側ノイズに対してより堅牢である傾向がある。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 16:43:31 GMT)
    • ニューラル機械翻訳ではサブワードベースのシステムが多く、文字ベースのシステムを使う事例が少ない理由を分析した論文。研究の進展で文字ベースのシステムでもサブワードに匹敵する性能が上がるが、計算効率が悪いという問題がある。また「匹敵する」だけでサブワードのシステムとの品質ギャップも存在する。文字ベースのシステムにあるソース側のノイズに強いという利点はこれらのギャップを埋めるのには十分でないと思う。

Machine Translationにおける多言語学習の意味

  • Breaking Down Multilingual Machine Translation [74.2]
    マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにも有益であることを示す。我々の LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 14:57:12 GMT)
    • マルチリンガルな学習の効果をエンコーダ、デコーダに分けて分析した論文。多言語トレーニングは「ローリソースな言語ではエンコーダとデコーダの両方にとって有益」「そうでない場合はエンコーダにとってのみ有益」とのこと。また、複数言語間のパラメータ共有状況を分析し言語クラスタの修正など改善方法を提案、効果を確認している。