Visual Voice clone – arXiv最新論文の紹介

Learning to Dub Movies via Hierarchical Prosody Models [167.6]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文参考訳（メタデータ） (Thu, 8 Dec 2022 03:29:04 GMT)
感情等を考慮した音声合成に関する研究。性能には様々な要素が絡むためAblation Studiesがとても参考になる。