Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation

  • Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.6]
    音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。 MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。 実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
    論文  参考訳(メタデータ)   (Tue, 25 Mar 2025 12:51:21 GMT)
  • 「this paper presents MusiCoT, a novel chain-of-thought prompting technique that enhances high-fidelity music generation by aligning the creative processes of AR models with musical thought.」と音楽生成にもCoT…
  • リポジトリはMusiCoT

YuE: Scaling Open Foundation Models for Long-Form Music Generation 

  • YuE: Scaling Open Foundation Models for Long-Form Music Generation [134.5]
    YuEはLLaMA2アーキテクチャに基づいたオープンファンデーションモデルのファミリーである。 歌詞のアライメント、コヒーレントな音楽構造、適切な伴奏を伴う声楽メロディを維持しながら、最大5分間の音楽を生成する。
    論文  参考訳(メタデータ)   (Tue, 11 Mar 2025 17:26:50 GMT)
  • オープンな音楽生成基盤モデルYuEの提案。マルチリンガルな(日本語を含む)歌詞で歌っているデモソングが面白い。かなりのクオリティのモデルが「The YuE model (including its weights) is now released under the Apache License, Version 2.0. We do not make any profit from this model, and we hope it can be used for the betterment of human creativity.」で公開されているのは凄い。
  • デモサイトはYuE、リポジトリはGitHub – multimodal-art-projection/YuE: YuE: Open Full-song Music Generation Foundation Model, something similar to Suno.ai but open

A Survey of Foundation Models for Music Understanding 

  • A Survey of Foundation Models for Music Understanding [60.8]
    この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。 音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
    論文  参考訳(メタデータ)   (Sun, 15 Sep 2024 03:34:14 GMT)
  • 「This work, to our best knowledge, is one of the early reviews of the intersection of AI techniques and music understanding.」とのこと。非常に包括的なサーベイ。

Simple and Controllable Music Generation

ERNIE-Music / Noise2Music

  • ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [54.9]
    拡散モデルを用いて任意のテキストを受信できる最初のテキスト-波形音楽生成モデルを提案する。 インターネットからテキストと音楽のペアのデータセットを収集します。 波形領域で生成された音楽は、多様性、品質、およびテキスト・音楽の関連性において、これまでの作品よりも大幅に優れていた。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 06:27:09 GMT)
  • Baiduからの音楽生成モデル(Diffusion Model)の提案。生成系のモデルはテキストや画像(動画)を超えて競争が激化している。
  • Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.7]
    本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。 生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。 トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 07:27:27 GMT)
  • こちらはGoogleからの提案
  • Noise2Music (google-research.github.io)

MusicLMとMusicCaps

  • MusicLM: Generating Music From Text [24.5]
    テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。 実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
    論文  参考訳(メタデータ)   (Thu, 26 Jan 2023 18:58:53 GMT)
  • テキストからの音楽生成、hierarchical sequence-to-sequence modelingとテンプレートレス。MusicCapsという名前で音楽とテキストのペアデータセット、55kを公開しているのも素晴らしい
  • プロジェクトサイトはMusicLM (google-research.github.io)、サンプルが聞けてそれっぽいのと歌声が入っているのも面白い。
  • MusicCapsデータセットはMusicCaps | Kaggleにあり、ライセンスはCC BY-SA 4.0

Pop2Piano

  • Pop2Piano : Pop Audio-based Piano Cover Generation [14.9]
    本稿では,Pop2Pianoについて紹介する。Pop2Pianoは,ポップミュージックの波形が与えられたピアノカバーを生成するトランスフォーマーネットワークである。 私たちの知る限りでは、メロディやコード抽出モジュールを使わずに、ポップオーディオから直接ピアノカバーを生成する最初のモデルです。
    論文  参考訳(メタデータ)   (Wed, 2 Nov 2022 05:42:22 GMT)
    • ピアノカバーの自動生成を行うモデルの提案。プロジェクトサイトのサンプルが興味深い
    • プロジェクトサイトはPop2Piano (sweetcocoa.github.io)

A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives 

  • A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives [10.3]
    人間がどのように音楽を作曲し、新しいAIシステムがそのようなプロセスを模倣するかを説明する。 AIモデルとアルゴリズムがいかにして音楽を生成するかを理解するために、私たちは、音楽生成プロセスに参加するエージェントを探索、分析、記述する。
    論文  参考訳(メタデータ)   (Tue, 25 Oct 2022 11:54:30 GMT)
    • 音楽生成のサーベイ
    • 生成系が盛り上がるなか、音楽生成も興味深いターゲットだと思う

Expert systemとニューラルネットの組み合わせによる音楽生成

  • MeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networks [146.6]
    MeloFormは、エキスパートシステムとニューラルネットワークを使用して、音楽形式でメロディを生成するシステムである。 詩やコーラス形式、ロンド形式、変奏形式、ソナタ形式など、様々な形式をサポートすることができる。
    論文  参考訳(メタデータ)   (Tue, 30 Aug 2022 15:44:15 GMT)
    • エキスパートシステムとニューラルネットと新旧の技術を組み合わせたという印象もある音楽生成フレームワーク。楽式の制御はエキスパートシステムで行い、表現力の向上をTransformer系のモデルで行っているよう。
      • 実務上(問題や場所によっては)ルールベースが有効なことは多いので音楽生成のような分野でもそういうことがあるのだろうと感じた。

ROC(Re-creation of Creations)

  • ROC: A New Paradigm for Lyric-to-Melody Generation [158.5]
    ROCはLyric-to-melody生成のための新しいパラダイムであり、世代検索パイプラインを通じて上記の問題に対処する。 ROCは、客観的指標と主観的指標の両方において、従来のニューラルネットワークベースの歌詞からメロディ生成モデルより優れている。
    論文  参考訳(メタデータ)   (Thu, 11 Aug 2022 08:44:47 GMT)