VALL-E

  • Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.6]
    テキストから音声合成(TTS)のための言語モデリング手法を提案する。 具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。 Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 15:37:15 GMT)
  • 最近の言語モデルと似たアーキテクチャを用いたText to Speechモデルの提案。この分野にもpromptを用いたモデルが出てきているのが興味深い。
  • リポジトリはunilm/valle at master · microsoft/unilm · GitHub、でもページがVALL-E (valle-demo.github.io)にある。高品質な合成ができているように思う。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です