MNMT(Multilingual Neural Machine Translation)における冗長部分の活用

  • More Parameters? No Thanks! [43.7]
    多言語ニューラルマシン翻訳MNMTにおけるモデル容量と負の干渉の長期的問題について検討する。 我々はネットワークプルーニング手法を用いて、トレーニングされたMNMTモデルからパラメータの50-70%をプルーニングすると、BLEUスコアの0.29-1.98ドロップしか得られないことを観察する。 我々は,MNMTの冗長なパラメータを反復的に訓練し,多言語性を維持しながらバイリンガル表現を改善する新しい適応戦略を提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 20 Jul 2021 17:04:15 GMT)
    • マルチリンガルなニューラル機械翻訳には冗長なパラメータが多い。著者らはマルチリンガルモデルから50%パラメータを削減したのちに、冗長だったweightを活用するトレーニングを行うことで削減前のモデルからBLEUスコアを改善できたとのこと。
    • コード等はhttps://github.com/zeecoder606/PF-Adaptationで公開予定とのこと。

CMM(Configurable Multilingual Model): マルチリンガルな音声認識

  • A Configurable Multilingual Model is All You Need to Recognize All Languages [52.3]
    本稿では,1回しか訓練されない新しい多言語モデル(CMM)を提案する。 CMMは、ユーザが1つ、2つ、3つの言語を選択すると、一般的な多言語モデルから26.4%、16.9%、および10.4%の単語誤りを減らす。
    論文  参考訳(メタデータ)   (Tue, 13 Jul 2021 06:52:41 GMT)
    • 言語指定可能なマルチリンガルな音声認識モデルを構築することで1言語のモデル及び通常のマルチリンガルモデルの性能を上回ったとの報告。
    • 認識対象の言語が分かっているほうが聞き取りやすい、多言語での訓練が単言語においても有効(人間が出せる音は言語が変わっても共通部分がある)というのは人間っぽいなという感想を抱いた。

Decomposed attentionを使ったマルチリンガル表現

  • Learning Multilingual Representation for Natural Language Understanding with Enhanced Cross-Lingual Supervision [42.7]
    本稿では,MA(Mixed Attention)の代替として,DA(Decomposed attention)というネットワークを提案する。 DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。 様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
    論文  参考訳(メタデータ)   (Wed, 9 Jun 2021 16:12:13 GMT)
    • mBERTのようなマルチリンガルモデルによってゼロショットで他言語に対応可能なモデルを構築できることが知られている。バイリンガルな言語間コーパス(翻訳文によるコーパス)の情報を活用してより良い事前学習モデルを作ったという報告。