Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation

  • Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.6]
    音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。 MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。 実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
    論文  参考訳(メタデータ)   (Tue, 25 Mar 2025 12:51:21 GMT)
  • 「this paper presents MusiCoT, a novel chain-of-thought prompting technique that enhances high-fidelity music generation by aligning the creative processes of AR models with musical thought.」と音楽生成にもCoT…
  • リポジトリはMusiCoT

Gemini 2.5, Deepseek V3, MCP …

週刊LLMが続いている。Gemini 2.5はGoogle Deepmindの最新モデルで非常に性能が高い(Gemini 2.5: Our newest Gemini model with thinking)。Humanity’s Last Examで18.8%と非常に難しいデータセットに対しても性能が上がっていっているのがすごい。Deepseek V3もアップデートが出ており当初のバージョンよりも性能が上がっている(DeepSeek-V3-0324 Release | DeepSeek API Docsdeepseek-ai/DeepSeek-V3-0324 · Hugging Face)。Gemma 3やQwen2.5 Omniのテクニカルレポートにも要注目。

LLM以外でもOpenAIのMCP対応(Model context protocol (MCP) – OpenAI Agents SDK)や画像生成AI(Introducing 4o Image Generation | OpenAI)などバズるニュースが多い。Reve AI | Next-Gen AI Image Generator with Reve Image 1.0など新たな動きもあり、本当に活発な分野である。

  • Gemma 3 Technical Report [198.3]
    Gemma 3は、軽量オープンモデルのGemmaファミリに対するマルチモーダルな追加である。 このバージョンでは、視覚理解能力、より広範な言語カバレッジ、より長いコンテキストが導入されている。 また、長いコンテキストで爆発しがちなKVキャッシュメモリを減らすために、モデルのアーキテクチャを変更します。
    論文  参考訳(メタデータ)   (Tue, 25 Mar 2025 15:52:34 GMT)
  • Qwen2.5-Omni Technical Report [31.0]
    本稿では,テキスト,画像,音声,ビデオなど多様なモーダル性を認識するために,テキストと自然な音声応答を同時生成するエンド・ツー・エンドのマルチモーダルモデルを提案する。 Qwen2.5-OmniはOmni-Benchのようなマルチモーダルベンチマークで最先端のパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Wed, 26 Mar 2025 04:17:55 GMT)

Scaling Laws of Synthetic Data for Language Models

  • Scaling Laws of Synthetic Data for Language Models [132.7]
    プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。 提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
    論文  参考訳(メタデータ)   (Tue, 25 Mar 2025 11:07:12 GMT)
  • 合成データのScaling lawに関する報告。高品質なデータ生成フレームワークSYnathLLMを前提に「Key findings from our extensive mathematical experiments on SYNTHLLM include: (1) SYNTHLLM generates synthetic data that reliably adheres to the rectified scaling law across various model sizes; (2) Performance improvements plateau near 300B tokens; and (3) Larger models approach optimal performance with fewer training tokens.」と合成データの有効性を示唆する結論になっている。
  • プロジェクトサイトはAdvancing AI for Humanity