コンテンツへスキップ
- ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [54.9]
拡散モデルを用いて任意のテキストを受信できる最初のテキスト-波形音楽生成モデルを提案する。 インターネットからテキストと音楽のペアのデータセットを収集します。 波形領域で生成された音楽は、多様性、品質、およびテキスト・音楽の関連性において、これまでの作品よりも大幅に優れていた。
論文 参考訳(メタデータ) (Thu, 9 Feb 2023 06:27:09 GMT)
- Baiduからの音楽生成モデル(Diffusion Model)の提案。生成系のモデルはテキストや画像(動画)を超えて競争が激化している。
- Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.7]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。 生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。 トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (Wed, 8 Feb 2023 07:27:27 GMT)
- こちらはGoogleからの提案
- Noise2Music (google-research.github.io)
- Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [112.3]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。 外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (Thu, 9 Feb 2023 18:57:56 GMT)
- 外部知識を利用可能なマルチモーダルモデル。Image CaptioningでFlamingoをoutperformとのこと。マルチモーダルな外部知識を活用できるのは純粋にすごいと思う。世の中のシステムのほとんどは(WEB検索を除き)画像検索はできない…。