- XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale [48.0]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。 128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 17 Nov 2021 18:49:42 GMT)- 巨大モデルで音声翻訳、音声認識、言語認識、話者認識など様々なタスクで優れた性能。英語方向のCoVoST-2でSoTAなど印象的な結果。
- NLPの巨大言語モデルを見るに違和感はないが、巨大化はどこまで行くのだろう。。。
- リポジトリはhttps://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr
- 巨大モデルで音声翻訳、音声認識、言語認識、話者認識など様々なタスクで優れた性能。英語方向のCoVoST-2でSoTAなど印象的な結果。