ERNIE-Music / Noise2Music

ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [54.9]
拡散モデルを用いて任意のテキストを受信できる最初のテキスト-波形音楽生成モデルを提案する。インターネットからテキストと音楽のペアのデータセットを収集します。波形領域で生成された音楽は、多様性、品質、およびテキスト・音楽の関連性において、これまでの作品よりも大幅に優れていた。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 06:27:09 GMT)
Baiduからの音楽生成モデル（Diffusion Model）の提案。生成系のモデルはテキストや画像（動画）を超えて競争が激化している。

Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.7]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (Wed, 8 Feb 2023 07:27:27 GMT)
こちらはGoogleからの提案
Noise2Music (google-research.github.io)

コメントを残すコメントをキャンセル