Decomposed attentionを使ったマルチリンガル表現

  • Learning Multilingual Representation for Natural Language Understanding with Enhanced Cross-Lingual Supervision [42.7]
    本稿では,MA(Mixed Attention)の代替として,DA(Decomposed attention)というネットワークを提案する。 DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。 様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
    論文  参考訳(メタデータ)   (Wed, 9 Jun 2021 16:12:13 GMT)
    • mBERTのようなマルチリンガルモデルによってゼロショットで他言語に対応可能なモデルを構築できることが知られている。バイリンガルな言語間コーパス(翻訳文によるコーパス)の情報を活用してより良い事前学習モデルを作ったという報告。