XLS-R(Cross-lingual Speech Representation): 多言語音声の大規模事前学習

  • XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale [48.0]
    XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。 128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 17 Nov 2021 18:49:42 GMT)
    • 巨大モデルで音声翻訳、音声認識、言語認識、話者認識など様々なタスクで優れた性能。英語方向のCoVoST-2でSoTAなど印象的な結果。
      • NLPの巨大言語モデルを見るに違和感はないが、巨大化はどこまで行くのだろう。。。
    • リポジトリはhttps://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です