Multilingual Machine Translationの実践的アプローチ

  • Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning [48.2]
    数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。 私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。 この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
    論文  参考訳(メタデータ)   (Thu, 13 Jan 2022 18:09:08 GMT)
    • 多言語機械翻訳モデルの実現に向けた様々な実験結果が参考になる。モデルが対応する言語数の増減、linguistic similarityを考慮した増減、パラ / モノリンガルデータ数が与える影響、ドメイン相違の影響、pretraining / finetuning / co-training / iterative back translationなど学習方法の影響など様々な観点があり興味深い。

PAEG(Phrase-level Adversarial Example Generation) を用いた機械翻訳モデルの頑健性向上

  • Phrase-level Adversarial Example Generation for Neural Machine Translation [75.0]
     エンドツーエンドのニューラルネットワーク翻訳(NMT)は目覚ましい進歩を遂げているが、ノイズの多い入力は通常、モデルが脆弱で不安定になる。拡張データとして逆例を生成することはこの問題を軽減するのに有用であることが証明された。 本稿では,モデルの堅牢性を高めるために,句レベル逆例生成(PAEG)手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 6 Jan 2022 11:00:49 GMT)
    • フェーズレベルの置き換えを用いたAdversarial Exampleを作成、その活用でモデルの頑健性向上を確認とのこと。生成にはBERTを活用。

BitextEdit: 不適切な対訳ペアを修正して利用

  • BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine Translation [53.6]
    自動編集によりマイニングした対訳ペアを改良することを提案する。 提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングバイテキストの品質を向上することを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Fri, 12 Nov 2021 16:00:39 GMT)
    • CCMatrixなど自動で作成された対訳ペア(Bitext)には問題のあるテキストが存在する。それらをフィルタリングするのが通常の対応だが、データ数の減少が問題となる。データフィルタリングするのではなく編集することによって翻訳モデルの性能が向上できたとの報告。
      • 不適切になった理由によっては有効そうという印象。

PhoMT: ベトナム語-英語のパラレルコーパス

  • PhoMT: A High-Quality and Large-Scale Benchmark Dataset for Vietnamese-English Machine Translation [7.0]
    3.02M文対のベトナム語-英語並列データセットを高品質かつ大規模に導入する。 これはベトナム語と英語の機械翻訳コーパスIWSLT15より2.9M大きい。 自動・人両方の評価において、事前訓練されたシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することにより、最高の性能が得られる。
    論文  参考訳(メタデータ)   (Sat, 23 Oct 2021 11:42:01 GMT)
    • 3Mの対訳ペアからなるベトナム語-英語のパラレルコーパスの提案。Google Translateを用いた対訳ペアアライメントやフィルタリングの方法などが興味深い。mBARTを用いて機械翻訳で優れた性能を出せたとのことだが、Google TranslateやBing Translatorの比較ではドメイン外データの結果が気になるところ。
    • リポジトリはhttps://github.com/VinAIResearch/PhoMTとのことだが、現時点では404

多言語教師無しニューラル機械翻訳/mBART-50の効果的な利用

  • Multilingual Unsupervised Neural Machine Translation with Denoising Adapters [77.8]
    単言語データのみを持つ言語を翻訳・翻訳する多言語無教師機械翻訳の問題点を考察する。 この問題に対して、モノリンガルデータを活用するための標準的な手順は、計算コストが高くチューニングが難しいバックトランスレーションである。 本稿では,事前学習したmBART-50上に,デノナイジング対象のアダプタ層であるデノナイジングアダプタを使用することを提案する。
    論文  参考訳(メタデータ)   (Wed, 20 Oct 2021 10:18:29 GMT)
    • mBART-50にアダプタ層を付け加えることによって破壊的な忘却を防止しながら性能の高い機械翻訳モデルを構築可能という報告。教師無し&単言語データを主たる対象にしている。新しい言語でmBARTを拡張できるとか非常に興味深い結果。

文字ベースの機械翻訳を使わないのはなぜか?

  • Why don’t people use character-level machine translation? [69.5]
    文字レベルシステムがサブワードシステムに匹敵する証拠があるにもかかわらず、機械翻訳競争において競合する設定ではほとんど使われない。 文字レベルのMTシステムは、しばしばモチベーションが高いにもかかわらず、ドメインの堅牢性も、モルフォロジーの一般化も良くない。 一方、ソース側ノイズに対してより堅牢である傾向がある。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 16:43:31 GMT)
    • ニューラル機械翻訳ではサブワードベースのシステムが多く、文字ベースのシステムを使う事例が少ない理由を分析した論文。研究の進展で文字ベースのシステムでもサブワードに匹敵する性能が上がるが、計算効率が悪いという問題がある。また「匹敵する」だけでサブワードのシステムとの品質ギャップも存在する。文字ベースのシステムにあるソース側のノイズに強いという利点はこれらのギャップを埋めるのには十分でないと思う。

Machine Translationにおける多言語学習の意味

  • Breaking Down Multilingual Machine Translation [74.2]
    マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにも有益であることを示す。我々の LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
    論文  参考訳(メタデータ)   (Fri, 15 Oct 2021 14:57:12 GMT)
    • マルチリンガルな学習の効果をエンコーダ、デコーダに分けて分析した論文。多言語トレーニングは「ローリソースな言語ではエンコーダとデコーダの両方にとって有益」「そうでない場合はエンコーダにとってのみ有益」とのこと。また、複数言語間のパラメータ共有状況を分析し言語クラスタの修正など改善方法を提案、効果を確認している。

GPT-3を用いた教師無しのニューラル機械翻訳

  • Unsupervised Neural Machine Translation with Generative Language Models Only [19.7]
    生成事前学習言語モデルから、最先端の教師なしニューラルネットワーク翻訳システムを導出する方法を示す。 本手法は, few-shotの増幅, 蒸留, 逆翻訳の3段階からなる。
    論文  参考訳(メタデータ)   (Mon, 11 Oct 2021 17:35:34 GMT)
    • GPT-3を用いて情報を引き出しながら教師無しで機械翻訳モデルを構築するという論文。WMT14 English-FrenchでBLEU=42.1は相当高レベル。
    • GPT-3は英語への翻訳性能が高く、英語からの翻訳性能が低い。ディスカッションに書かれている通り、バックトランスレーションでこの非対称性が埋まっていくと考えると納得感のある結果。
    • 巨大モデルからうまく知識を引き出して高精度な機械翻訳モデルを作るというのは面白い。自然言語処理関連のモデル構築の常識が変わる気がする。今までは高品質対訳ペアデータを持っていることが競争優位性につながったが、これからは良いgigantic language modelを持つ事がそれにつながるのではないか。

ニューラル機械翻訳におけるPre-TrainingとBack-Translation

  • On the Complementarity between Pre-Training and Back-Translation for Neural Machine Translation [63.9]
    事前学習(PT)と後方翻訳(BT)は単言語データを利用するためのシンプルで強力な方法である。 本稿では,PTとBTの相補性について検討する。 我々は、WMT16英語-ルーマニア語と英語-ロシア語ベンチマークで最先端のパフォーマンスを確立する。
    論文  参考訳(メタデータ)   (Tue, 5 Oct 2021 04:01:36 GMT)
    • Pre-Trainingはエンコーダにとってより有益であり、Back-Translationはデコーダを主に改善するとの報告。両社は相互補完可能でTagged BTはより有益であるとのこと。

TranslateLocally: CPUで動作する高速な機械翻訳

  • TranslateLocally: Blazing-fast translation running on the local CPU [11.0]
    translateLocallyは10年前のハードウェアでもクラウドのような翻訳速度と品質を提供する。 オープンソースソフトウェアはMarianをベースにしており、Linux、Windows、CPUで動作する。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 14:20:39 GMT)
    • Marian-NMTをベースにしたCPUで高速に動作可能な機械翻訳ソフトウェアの紹介。現状日本語は対応していなさそうなのでFuguMTで集めたコーパス使って参加してみようかと思わなくもない。