NaturalSpeech 2

  • NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.8]
    残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。 本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 17:08:20 GMT)
  • NaturalSpeech のバージョン2、Diffusion modelの利用、Speech prompting mechanisms for in-context learningによって強力な音声合成が可能
  • プロジェクトサイトはNaturalSpeech 2 (speechresearch.github.io)、サンプルの音声があるが、聞き分けがなかなか難しいレベルに感じる

SpeechPainter: 音声が欠けた部分を埋めるモデル

  • SpeechPainter: Text-conditioned Speech Inpainting [12.0]
    本稿では,音声サンプルの最大1秒間を補助的なテキスト入力を利用して埋め込むモデルであるSpeechPainterを提案する。 本研究では, 話者識別, 韻律, 記録環境条件を維持しながら, 適切な内容で音声を表現できることを実証する。
    論文  参考訳(メタデータ)   (Tue, 15 Feb 2022 09:33:30 GMT)
    • 音声(発話)データで一部が欠けたもの+補助テキストを用いて欠けた部分を埋めるモデルの提案。プロジェクトサイトのデモが面白い。
      • 面白いと同時にFakeなものに使われそうで怖い。
    • プロジェクトサイトAudio samples for “SpeechPainter: Text-conditioned Speech Inpainting”にサンプルが存在

Neural Speech Synthesisのサーベイ

  • A Survey on Neural Speech Synthesis [110.4]
    テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。 我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTTSに関する包括的な調査を行っている。 我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TTS、低リソースTTS、堅牢TTS、表現型TTS、適応型TTSなど、いくつかの先進的なトピックに焦点を当てる。
    論文  参考訳(メタデータ)   (Tue, 29 Jun 2021 16:50:51 GMT)
    • 全63ページ、引用数447と幅広いサーベイでText to Speechを概観するために非常に良い論文。Text to Speechの歴史から始まりその構成要素や特にニューラル系モデルの分類とその内容が説明されており、高度化の流れや将来の方向性を知る上でも素晴らしい内容だと思う。オープンな実装やコーパスなどリソースのまとめもありがたい。