- mSLAM: Massively multilingual joint pre-training for speech and text [43.3]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。 テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 3 Feb 2022 02:26:40 GMT)- w2v-BERT+SpanBERT+ Connectionist Temporal Classificationで音声とテキストを統一的に扱うモデルを事前学習。SLAM(Fugu-MT 論文翻訳(概要): SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training (fugumt.com))のmultilingual版
- 特に音声関連のタスクで能力が向上しているよう。