XLS-R(Cross-lingual Speech Representation): 多言語音声の大規模事前学習

XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale [48.0]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。 128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文参考訳（メタデータ）参考訳（全文） (Wed, 17 Nov 2021 18:49:42 GMT)
- 巨大モデルで音声翻訳、音声認識、言語認識、話者認識など様々なタスクで優れた性能。英語方向のCoVoST-2でSoTAなど印象的な結果。
  - NLPの巨大言語モデルを見るに違和感はないが、巨大化はどこまで行くのだろう。。。
- リポジトリはhttps://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr

コメントを残す

コメントを残す コメントをキャンセル