PromptTTS / PromptSpeechデータセット – arXiv最新論文の紹介

PromptTTS: Controllable Text-to-Speech with Text Descriptions [32.6]
文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。 PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
論文参考訳（メタデータ） (Tue, 22 Nov 2022 10:58:38 GMT)
テキスト読み上げにもプロンプトを使っていこうという報告。データセットまで作っているのが素晴らしい。
プロジェクトサイトはPromptTTS: controllable text-to-speech with text descriptions – Speech Research

コメントを残す

コメントを残す コメントをキャンセル