Simple and Controllable Music Generation

ERNIE-Music / Noise2Music

  • ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [54.9]
    拡散モデルを用いて任意のテキストを受信できる最初のテキスト-波形音楽生成モデルを提案する。 インターネットからテキストと音楽のペアのデータセットを収集します。 波形領域で生成された音楽は、多様性、品質、およびテキスト・音楽の関連性において、これまでの作品よりも大幅に優れていた。
    論文  参考訳(メタデータ)   (Thu, 9 Feb 2023 06:27:09 GMT)
  • Baiduからの音楽生成モデル(Diffusion Model)の提案。生成系のモデルはテキストや画像(動画)を超えて競争が激化している。
  • Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.7]
    本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。 生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。 トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
    論文  参考訳(メタデータ)   (Wed, 8 Feb 2023 07:27:27 GMT)
  • こちらはGoogleからの提案
  • Noise2Music (google-research.github.io)

MusicLMとMusicCaps

  • MusicLM: Generating Music From Text [24.5]
    テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。 実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
    論文  参考訳(メタデータ)   (Thu, 26 Jan 2023 18:58:53 GMT)
  • テキストからの音楽生成、hierarchical sequence-to-sequence modelingとテンプレートレス。MusicCapsという名前で音楽とテキストのペアデータセット、55kを公開しているのも素晴らしい
  • プロジェクトサイトはMusicLM (google-research.github.io)、サンプルが聞けてそれっぽいのと歌声が入っているのも面白い。
  • MusicCapsデータセットはMusicCaps | Kaggleにあり、ライセンスはCC BY-SA 4.0

Pop2Piano

  • Pop2Piano : Pop Audio-based Piano Cover Generation [14.9]
    本稿では,Pop2Pianoについて紹介する。Pop2Pianoは,ポップミュージックの波形が与えられたピアノカバーを生成するトランスフォーマーネットワークである。 私たちの知る限りでは、メロディやコード抽出モジュールを使わずに、ポップオーディオから直接ピアノカバーを生成する最初のモデルです。
    論文  参考訳(メタデータ)   (Wed, 2 Nov 2022 05:42:22 GMT)
    • ピアノカバーの自動生成を行うモデルの提案。プロジェクトサイトのサンプルが興味深い
    • プロジェクトサイトはPop2Piano (sweetcocoa.github.io)

A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives 

  • A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives [10.3]
    人間がどのように音楽を作曲し、新しいAIシステムがそのようなプロセスを模倣するかを説明する。 AIモデルとアルゴリズムがいかにして音楽を生成するかを理解するために、私たちは、音楽生成プロセスに参加するエージェントを探索、分析、記述する。
    論文  参考訳(メタデータ)   (Tue, 25 Oct 2022 11:54:30 GMT)
    • 音楽生成のサーベイ
    • 生成系が盛り上がるなか、音楽生成も興味深いターゲットだと思う

Expert systemとニューラルネットの組み合わせによる音楽生成

  • MeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networks [146.6]
    MeloFormは、エキスパートシステムとニューラルネットワークを使用して、音楽形式でメロディを生成するシステムである。 詩やコーラス形式、ロンド形式、変奏形式、ソナタ形式など、様々な形式をサポートすることができる。
    論文  参考訳(メタデータ)   (Tue, 30 Aug 2022 15:44:15 GMT)
    • エキスパートシステムとニューラルネットと新旧の技術を組み合わせたという印象もある音楽生成フレームワーク。楽式の制御はエキスパートシステムで行い、表現力の向上をTransformer系のモデルで行っているよう。
      • 実務上(問題や場所によっては)ルールベースが有効なことは多いので音楽生成のような分野でもそういうことがあるのだろうと感じた。

ROC(Re-creation of Creations)

  • ROC: A New Paradigm for Lyric-to-Melody Generation [158.5]
    ROCはLyric-to-melody生成のための新しいパラダイムであり、世代検索パイプラインを通じて上記の問題に対処する。 ROCは、客観的指標と主観的指標の両方において、従来のニューラルネットワークベースの歌詞からメロディ生成モデルより優れている。
    論文  参考訳(メタデータ)   (Thu, 11 Aug 2022 08:44:47 GMT)

Youling: AIが支援する歌詞作成

  • Youling: an AI-Assisted Lyrics Creation System [72.0]
    本稿では,AIによる歌詞作成システムである Youling について紹介する。 歌詞生成プロセスでは、Youlingは従来の1パスのフルテキスト生成モードとインタラクティブな生成モードをサポートする。 システムは、ユーザーが望まない文や歌詞の言葉を繰り返し修正できるリビジョンモジュールも提供する。
    論文  参考訳(メタデータ)   (Tue, 18 Jan 2022 03:57:04 GMT)
    • GPT-2をベースとした歌詞作成支援システムの提案。30GBの中国語書籍コーパスで学習後、300Kの歌詞コーパスでfine tuningを実施したとのこと。
    • デモシステム利用する案内が論文中に存在(ID等を含むのでここには記載しなかった)

DeepRapper: 深層学習によるラップ生成

  • DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling [102.5]
    ラップ生成におけるこれまでの研究は、韻律的な歌詞に重点を置いていたが、ラップ演奏に重要なリズムビートを無視していた。 本稿では,韻とリズムの両方をモデル化可能なトランスフォーマーベースのラップ生成システムであるDeepRapperを開発する。
    論文  参考訳(メタデータ)   (Mon, 5 Jul 2021 09:01:46 GMT)
    • Deep Learningでラップ生成、DeepRapperという面白い報告。
    • 単純な歌詞生成ではなく rhyme and rhythm(韻とリズム)を考慮した生成が可能とのこと。

MusicBERT: 音楽を対象とした事前学習モデル

  • MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.9]
    シンボリック・ミュージックの理解とは、シンボリック・データから音楽を理解することを指す。 MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
    論文  参考訳(メタデータ)   (Thu, 10 Jun 2021 10:13:05 GMT)
    • BERTを音楽を対象に利用、音楽理解タスクでSOTA。マスキング戦略など音楽特有の対応を行っている。