DeltaLM: 多言語エンコーダ-デコーダモデル

  • DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders [92.9]
    本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。 具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己教師ありで事前学習する。 実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
    論文  参考訳(メタデータ)   (Fri, 25 Jun 2021 16:12:10 GMT)
    • こちらは事前学習された言語生成(機械翻訳)用のエンコーダ・デコーダアーキテクチャのモデル。パラメータが少ないにもかかわらずmBARTやmT5、M2M-100を上回る性能。
    • ∆LMは32 V100 GPUで1週間の計算コストと mBART(256 GPUで2.5週間)に比べ低コスト(?)での学習が可能とのこと。

LM4MT(Language Models for Machine translation): 翻訳のための言語モデル

  • Language Models are Good Translators [63.5]
    単一言語モデル(LM4MT)は,強力なエンコーダデコーダNMTモデルと同等の性能が得られることを示す。 ピボットベースおよびゼロショット変換タスクの実験により、LM4MTはエンコーダ・デコーダのNMTモデルよりも大きなマージンで優れていることが示された。
    論文  参考訳(メタデータ)   (Fri, 25 Jun 2021 13:30:29 GMT)
    • 現状のニューラル機械翻訳ではエンコーダ・デコーダ型のアーキテクチャが良く用いられるが言語モデルのアーキテクチャでも十分な性能が得られたとの報告。多言語間で統一的な内部表現であることからかmultilingual NMT のゼロショット翻訳ではtransformerより優れているとのこと。