音楽 – arXiv最新論文の紹介

Music Flamingo: Scaling Music Understanding in Audio Language Models

Music Flamingo: Scaling Music Understanding in Audio Language Models [98.9]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。 MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。 MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文参考訳（メタデータ） (Fri, 14 Nov 2025 01:43:47 GMT)
「Unlike speech or environmental sounds, music is inherently layered, expressive, and structured, combining surface- level acoustic attributes (tempo, key, timbre) with mid-level organization (harmony, form, rhythm) and higher-level dimensions (lyrics, style, affect, cultural context). Capturing this multi-faceted nature of music requires models that can move beyond surface-level recognition toward reasoning and interpretation more akin to a trained musician.」と非常に難しいタスクである音楽理解のためのモデルの提案。
プロジェクトサイトはMusic Flamingo: Scaling Music Understanding in Audio Language Models – NVIDIA ADLR

Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation

Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.6]
音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。 MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
論文参考訳（メタデータ） (Tue, 25 Mar 2025 12:51:21 GMT)
「this paper presents MusiCoT, a novel chain-of-thought prompting technique that enhances high-fidelity music generation by aligning the creative processes of AR models with musical thought.」と音楽生成にもCoT…
リポジトリはMusiCoT

YuE: Scaling Open Foundation Models for Long-Form Music Generation

YuE: Scaling Open Foundation Models for Long-Form Music Generation [134.5]
YuEはLLaMA2アーキテクチャに基づいたオープンファンデーションモデルのファミリーである。歌詞のアライメント、コヒーレントな音楽構造、適切な伴奏を伴う声楽メロディを維持しながら、最大5分間の音楽を生成する。
論文参考訳（メタデータ） (Tue, 11 Mar 2025 17:26:50 GMT)
オープンな音楽生成基盤モデルYuEの提案。マルチリンガルな（日本語を含む）歌詞で歌っているデモソングが面白い。かなりのクオリティのモデルが「The YuE model (including its weights) is now released under the Apache License, Version 2.0. We do not make any profit from this model, and we hope it can be used for the betterment of human creativity.」で公開されているのは凄い。
デモサイトはYuE、リポジトリはGitHub – multimodal-art-projection/YuE: YuE: Open Full-song Music Generation Foundation Model, something similar to Suno.ai but open

A Survey of Foundation Models for Music Understanding

A Survey of Foundation Models for Music Understanding [60.8]
この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
論文参考訳（メタデータ） (Sun, 15 Sep 2024 03:34:14 GMT)
「This work, to our best knowledge, is one of the early reviews of the intersection of AI techniques and music understanding.」とのこと。非常に包括的なサーベイ。

Simple and Controllable Music Generation

Simple and Controllable Music Generation [82.2]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (Thu, 8 Jun 2023 15:31:05 GMT)
制御可能な音楽生成、テキストまたはメロディーを条件に与える事が可能。
リポジトリはGitHub – facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable music generation LM with textual and melodic conditioning.

ERNIE-Music / Noise2Music

ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [54.9]
拡散モデルを用いて任意のテキストを受信できる最初のテキスト-波形音楽生成モデルを提案する。インターネットからテキストと音楽のペアのデータセットを収集します。波形領域で生成された音楽は、多様性、品質、およびテキスト・音楽の関連性において、これまでの作品よりも大幅に優れていた。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 06:27:09 GMT)
Baiduからの音楽生成モデル（Diffusion Model）の提案。生成系のモデルはテキストや画像（動画）を超えて競争が激化している。

Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.7]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (Wed, 8 Feb 2023 07:27:27 GMT)
こちらはGoogleからの提案
Noise2Music (google-research.github.io)

MusicLMとMusicCaps

MusicLM: Generating Music From Text [24.5]
テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。 MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
論文参考訳（メタデータ） (Thu, 26 Jan 2023 18:58:53 GMT)
テキストからの音楽生成、hierarchical sequence-to-sequence modelingとテンプレートレス。MusicCapsという名前で音楽とテキストのペアデータセット、55kを公開しているのも素晴らしい
プロジェクトサイトはMusicLM (google-research.github.io)、サンプルが聞けてそれっぽいのと歌声が入っているのも面白い。
MusicCapsデータセットはMusicCaps | Kaggleにあり、ライセンスはCC BY-SA 4.0

Pop2Piano

Pop2Piano : Pop Audio-based Piano Cover Generation [14.9]
本稿では,Pop2Pianoについて紹介する。Pop2Pianoは,ポップミュージックの波形が与えられたピアノカバーを生成するトランスフォーマーネットワークである。私たちの知る限りでは、メロディやコード抽出モジュールを使わずに、ポップオーディオから直接ピアノカバーを生成する最初のモデルです。
論文参考訳（メタデータ） (Wed, 2 Nov 2022 05:42:22 GMT)
- ピアノカバーの自動生成を行うモデルの提案。プロジェクトサイトのサンプルが興味深い
- プロジェクトサイトはPop2Piano (sweetcocoa.github.io)

A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives

A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives [10.3]
人間がどのように音楽を作曲し、新しいAIシステムがそのようなプロセスを模倣するかを説明する。 AIモデルとアルゴリズムがいかにして音楽を生成するかを理解するために、私たちは、音楽生成プロセスに参加するエージェントを探索、分析、記述する。
論文参考訳（メタデータ） (Tue, 25 Oct 2022 11:54:30 GMT)
- 音楽生成のサーベイ
- 生成系が盛り上がるなか、音楽生成も興味深いターゲットだと思う

Expert systemとニューラルネットの組み合わせによる音楽生成

MeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networks [146.6]
MeloFormは、エキスパートシステムとニューラルネットワークを使用して、音楽形式でメロディを生成するシステムである。詩やコーラス形式、ロンド形式、変奏形式、ソナタ形式など、様々な形式をサポートすることができる。
論文参考訳（メタデータ） (Tue, 30 Aug 2022 15:44:15 GMT)
- エキスパートシステムとニューラルネットと新旧の技術を組み合わせたという印象もある音楽生成フレームワーク。楽式の制御はエキスパートシステムで行い、表現力の向上をTransformer系のモデルで行っているよう。
  - 実務上（問題や場所によっては）ルールベースが有効なことは多いので音楽生成のような分野でもそういうことがあるのだろうと感じた。
- プロジェクトサイトはMeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networks (ai-muzic.github.io)

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30