- A Survey on Neural Speech Synthesis [110.4]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。 我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTTSに関する包括的な調査を行っている。 我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TTS、低リソースTTS、堅牢TTS、表現型TTS、適応型TTSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (Tue, 29 Jun 2021 16:50:51 GMT)- 全63ページ、引用数447と幅広いサーベイでText to Speechを概観するために非常に良い論文。Text to Speechの歴史から始まりその構成要素や特にニューラル系モデルの分類とその内容が説明されており、高度化の流れや将来の方向性を知る上でも素晴らしい内容だと思う。オープンな実装やコーパスなどリソースのまとめもありがたい。