NaturalSpeech 2

  • NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.8]
    残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。 本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
    論文  参考訳(メタデータ)   (Thu, 4 May 2023 17:08:20 GMT)
  • NaturalSpeech のバージョン2、Diffusion modelの利用、Speech prompting mechanisms for in-context learningによって強力な音声合成が可能
  • プロジェクトサイトはNaturalSpeech 2 (speechresearch.github.io)、サンプルの音声があるが、聞き分けがなかなか難しいレベルに感じる

Img2Vec

  • Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.6]
    我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。 Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
    論文  参考訳(メタデータ)   (Tue, 25 Apr 2023 03:01:37 GMT)
  • 2vec系、Img2Vec