VALL-E

  • Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.6]
    テキストから音声合成(TTS)のための言語モデリング手法を提案する。 具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。 Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 15:37:15 GMT)
  • 最近の言語モデルと似たアーキテクチャを用いたText to Speechモデルの提案。この分野にもpromptを用いたモデルが出てきているのが興味深い。
  • リポジトリはunilm/valle at master · microsoft/unilm · GitHub、でもページがVALL-E (valle-demo.github.io)にある。高品質な合成ができているように思う。

PromptTTS / PromptSpeechデータセット

  • PromptTTS: Controllable Text-to-Speech with Text Descriptions [32.6]
    文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。 PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。 実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
    論文  参考訳(メタデータ)   (Tue, 22 Nov 2022 10:58:38 GMT)
  • テキスト読み上げにもプロンプトを使っていこうという報告。データセットまで作っているのが素晴らしい。
  • プロジェクトサイトはPromptTTS: controllable text-to-speech with text descriptions – Speech Research

Neural Speech Synthesisのサーベイ

  • A Survey on Neural Speech Synthesis [110.4]
    テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。 我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTTSに関する包括的な調査を行っている。 我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TTS、低リソースTTS、堅牢TTS、表現型TTS、適応型TTSなど、いくつかの先進的なトピックに焦点を当てる。
    論文  参考訳(メタデータ)   (Tue, 29 Jun 2021 16:50:51 GMT)
    • 全63ページ、引用数447と幅広いサーベイでText to Speechを概観するために非常に良い論文。Text to Speechの歴史から始まりその構成要素や特にニューラル系モデルの分類とその内容が説明されており、高度化の流れや将来の方向性を知る上でも素晴らしい内容だと思う。オープンな実装やコーパスなどリソースのまとめもありがたい。