ゼロショットでのドキュメントレベルニューラル機械翻訳能力の転送

  • Multilingual Document-Level Translation Enables Zero-Shot Transfer From Sentences to Documents [19.6]
    ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、クロスセンスコンテキストを取り入れたコヒーレントな翻訳を提供する。 本研究では,DocNMTにおける文脈モデリングが,ゼロショット方式で文から文書への変換可能かどうかについて検討する。
    論文  参考訳(メタデータ)   (Tue, 21 Sep 2021 17:49:34 GMT)
    • Document-level Neural Machine Translationの実現には(文ではなく)文書のパラレルコーパスが不足しているという問題がある。文書レベルのコーパスが充実している言語のDocNMTとSenNMT(文レベルのニューラル機械翻訳)、文書レベルのコーパスが不足している言語のSenNMTを組み合わせて、文書レベルのコーパスが不足している言語のDocNMTが作成可能とした報告。
      • Docレベルの評価ではBLEUがうまく機能しないことを含めて面白い結果。

BiT(Bidirectional Training): 機械翻訳用のシンプルな双方向事前学習

  • Improving Neural Machine Translation by Bidirectional Training [85.6]
    我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。 具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。 実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 16 Sep 2021 07:58:33 GMT)
    • 「src→target」という構成を「src + target → target + src」に変更して事前学習を行う(BiT)だけで翻訳性能が向上するとの報告。事前学習結果は言語対が逆になっても(例えばEn→De、De→En双方で)使用可能とのこと。データ数に関わらずBLEUで1ポイント以上の効果があるデータセットもあって有用そう。

ニューラル機械翻訳におけるScaling Law、クロスエントロピーと翻訳の質

  • Scaling Laws for Neural Machine Translation [21.8]
    モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。 また,クロスエントロピー損失と翻訳の質との関係についても検討した。
    論文  参考訳(メタデータ)   (Thu, 16 Sep 2021 06:15:20 GMT)
    • ニューラル機械翻訳におけるモデルサイズとモデル品質の関係を検証した論文。エンコーダとデコーダに着目した場合はそれなりにうまくいく式が導出できたとのこと(逆に言うとモデル内パラメータ総数との関係は十分に明らかとは言えない)。それによって最適なサイズを決められる。
      • デコーダの層数よりもエンコーダの層数を多くした方が良いのでは?という議論が裏付けられている。
    • Target言語→Src言語でテストセットを作った場合はモデルサイズの増加がlossとBLEU双方が改善され、逆の場合はlossが改善する一方でBLEUの改善は頭打ちになる。
      • 機械翻訳の多様性の欠如を示しているのでは。とのこと。(同時にBack Translationが一定程度有効という裏付けでもある。)
    • WEBからのクロールデータで機械翻訳モデルを作る際、WEBデータに機械翻訳によるテキストが多数入っている事の問題も指摘している。特にリソースの少ない言語ではすでに問題になっているとの指摘。
      • FuguMTではある程度はフィルタリングしている。テキストの類似性を見るようなアプローチは効果が薄く、URLや原文の構成単語に頼る方がよかったりするので簡単ではないとの印象。
      • 機械翻訳を行っているサイトにつけるフラグとかあったら知りたい。

ニューラル機械翻訳システムを中間に組み込んだNLUモデル

  • Modelling Latent Translations for Cross-Lingual Transfer [47.6]
    従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。 我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。 ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
    論文  参考訳(メタデータ)   (Fri, 23 Jul 2021 17:11:27 GMT)
    • NLU (Natural Language Understanding)タスクを解く際にニューラル機械翻訳を組み込むことでマルチリンガル性を得るモデルの提案。この手のタスクでは(大規模事前学習を行った)マルチリンガルモデルの採用が多いが機械翻訳の組み込みは妥当で効果的な構造のように思える。実際、マルチリンガルなタスクにおけるzero-shot、few-shotの結果も良い。
    • 論文中でMarianのJAに関する精度が著しく悪いのはHelsinki-NLP/Opus-MTの日本語関連のモデルのデータ量が足りていないためと思われる。(FuguMTを作った理由の一つでもある。)

ニューラル機械翻訳における信頼性を考慮したScheduled sampling

  • Confidence-Aware Scheduled Sampling for Neural Machine Translation [25.4]
    ニューラルマシン翻訳のための信頼度を考慮したスケジュールサンプリングを提案する。 モデル予測の信頼性により,実時間モデル能力の定量化を行う。 提案手法は,翻訳品質と収束速度の両方において,トランスフォーマーとバニラのスケジュールサンプリングを著しく上回っている。
    論文  参考訳(メタデータ)  (Thu, 22 Jul 2021 02:49:04 GMT)
    • 翻訳性能を向上させるスケジュールサンプリングの提案。バニラなTransformer(base / big)に比べて WMT14 EN-DE、EN-FR、WMT19 ZH-ENでそれぞれBLEUで1ポイント程度の改善を報告している。
    • コードはhttps://github.com/Adaxry/conf_aware_ss4nmtから参照可能。

MNMT(Multilingual Neural Machine Translation)における冗長部分の活用

  • More Parameters? No Thanks! [43.7]
    多言語ニューラルマシン翻訳MNMTにおけるモデル容量と負の干渉の長期的問題について検討する。 我々はネットワークプルーニング手法を用いて、トレーニングされたMNMTモデルからパラメータの50-70%をプルーニングすると、BLEUスコアの0.29-1.98ドロップしか得られないことを観察する。 我々は,MNMTの冗長なパラメータを反復的に訓練し,多言語性を維持しながらバイリンガル表現を改善する新しい適応戦略を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 20 Jul 2021 17:04:15 GMT)
    • マルチリンガルなニューラル機械翻訳には冗長なパラメータが多い。著者らはマルチリンガルモデルから50%パラメータを削減したのちに、冗長だったweightを活用するトレーニングを行うことで削減前のモデルからBLEUスコアを改善できたとのこと。
    • コード等はhttps://github.com/zeecoder606/PF-Adaptationで公開予定とのこと。

S2ST(direct Speech-to-Speech Translation): 音声to音声の直接翻訳

  • Direct speech-to-speech translation with discrete units [64.2]
    本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声to音声翻訳(S2ST)モデルを提案する。 本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。 対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
    論文  参考訳(メタデータ)   (Mon, 12 Jul 2021 17:40:43 GMT)
    • 以前紹介したNiuTransと同様に直接的な音声翻訳の提案。Transformer型アーキテクチャ、self-supervised、マルチタスクを活用などこちらも様々なテクニックを活用している。(データがあれば)end to endでこの手のシステムが作れるかもしれないとは驚き。

低リソースでのニューラル機械翻訳サーベイ

  • A Survey on Low-Resource Neural Machine Translation [106.5]
    我々は、低リソースNMTに関する調査を使用した補助データに基づいて(1)ソースおよび/またはターゲット言語の単言語データの活用,(2)補助言語からのデータの活用,(3)マルチモーダルデータの活用の3つのカテゴリに分類する。 私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
    論文  参考訳(メタデータ)   (Fri, 9 Jul 2021 06:26:38 GMT)
    • リソースが少ない状況下でのニューラル機械翻訳に関するサーベイ。モノリンガルコーパスの利用、他言語データによる補助(マルチリンガル性や転移学習の利用)、マルチモーダルデータの利用など3つのカテゴリに分けてまとめている。この分野の概観を知るために良い資料であると思う。

NiuTrans: End-to-Endoの音声翻訳システム(IWSLT2021)

  • The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline Task [23.0]
    本稿では,IWSLT 2021オフラインタスクに対して,NiuTransのエンドツーエンド音声翻訳システムを提案する。 我々はTransformerベースのモデルアーキテクチャを使用し、Conformer、相対位置符号化、スタックされた音響およびテキスト符号化により拡張する。 我々は MuST-C En-De テストセット上で 33.84 BLEU を達成する。
    論文  参考訳(メタデータ)   (Thu, 8 Jul 2021 08:21:18 GMT)
    • (様々なテクニックを使っているが)音声翻訳でもend-to-endなアプローチが優れた結果を出しているよう。

ニューラル機械翻訳での認証データ活用

  • Alternated Training with Synthetic and Authentic Data for Neural Machine Translation [49.4]
    ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。 従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。 中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
    論文  参考訳(メタデータ)   (Wed, 16 Jun 2021 07:13:16 GMT)
    • Back Translationのような合成データ利用では正しい対訳データとの混ぜ方が課題になっており最悪翻訳モデルの性能を劣化させていた。その対応のためタグを付与するテクニックがあった。この報告では学習時にノイジーな合成データによるずれを補正することで性能を向上させている。