ニューラル機械翻訳での認証データ活用

  • Alternated Training with Synthetic and Authentic Data for Neural Machine Translation [49.4]
    ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。 従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。 中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
    論文  参考訳(メタデータ)   (Wed, 16 Jun 2021 07:13:16 GMT)
    • Back Translationのような合成データ利用では正しい対訳データとの混ぜ方が課題になっており最悪翻訳モデルの性能を劣化させていた。その対応のためタグを付与するテクニックがあった。この報告では学習時にノイジーな合成データによるずれを補正することで性能を向上させている。