文字ベースの機械翻訳を使わないのはなぜか?

  • Why don’t people use character-level machine translation? [69.5]
    文字レベルシステムがサブワードシステムに匹敵する証拠があるにもかかわらず、機械翻訳競争において競合する設定ではほとんど使われない。 文字レベルのMTシステムは、しばしばモチベーションが高いにもかかわらず、ドメインの堅牢性も、モルフォロジーの一般化も良くない。 一方、ソース側ノイズに対してより堅牢である傾向がある。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 16:43:31 GMT)
    • ニューラル機械翻訳ではサブワードベースのシステムが多く、文字ベースのシステムを使う事例が少ない理由を分析した論文。研究の進展で文字ベースのシステムでもサブワードに匹敵する性能が上がるが、計算効率が悪いという問題がある。また「匹敵する」だけでサブワードのシステムとの品質ギャップも存在する。文字ベースのシステムにあるソース側のノイズに強いという利点はこれらのギャップを埋めるのには十分でないと思う。