SpeechT5: 音声情報向けT5

  • SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing [77.5]
    本稿では,自己教師付き音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。 SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。 テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。
    論文  参考訳(メタデータ)   (Thu, 14 Oct 2021 07:59:27 GMT)
    • T5に似た事前学習モデルを音声向けに構築、ASR、TTS、VC、SIDなど複数のタスクで効果を確認とのこと。TextlessNLPのような流れに向けた一歩になるのだろうか。
      • ASR: Automatic Speech Recognition
      • TTS: Text-To-Speech
      • VC: Voice Conversion
      • SID: Speaker IDentification

S2ST(direct Speech-to-Speech Translation): 音声to音声の直接翻訳

  • Direct speech-to-speech translation with discrete units [64.2]
    本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声to音声翻訳(S2ST)モデルを提案する。 本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。 対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
    論文  参考訳(メタデータ)   (Mon, 12 Jul 2021 17:40:43 GMT)
    • 以前紹介したNiuTransと同様に直接的な音声翻訳の提案。Transformer型アーキテクチャ、self-supervised、マルチタスクを活用などこちらも様々なテクニックを活用している。(データがあれば)end to endでこの手のシステムが作れるかもしれないとは驚き。