音声合成 – arXiv最新論文の紹介

Grok 2.5, HERMES 4, InternVL3.5, VIBEVOICE

先週は公開モデルに関する話題が多かった。X.aiからはアナウンス通りGrok2のウェイトが公開された（https://x.com/elonmusk/status/1959379349322313920 / xai-org/grok-2 · Hugging Face）。Grok3も半年程度で公開とのこと。HERMES, InternVLからも新しいモデルが出ている。アプローチは様々とはいえ、着々とモデルを構築しフロンティアに追いついているのは凄いことである。Microsoft ResearchからはText-to-SpeechのOSSモデルが公開された（VibeVoice）。特化型を使う場面も多々残っていてありがたい。

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [245.9]
InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
論文参考訳（メタデータ） (Mon, 25 Aug 2025 17:58:17 GMT)
InternVLの最新版。LLM部分のベースモデルとしてQwen3シリーズとGPT-OSSを使用。GPT-OSS-20B, Qwen3-30B-A3Bの比較も興味深い。（パラメータサイズの差かQwen3の方が性能が高い。）
リポジトリはOpenGVLab/InternVL3_5-241B-A28B · Hugging Face

Hermes 4 Technical Report [7.6]
Hermes 4は、構造化されたマルチターン推論と幅広い命令追従能力を組み合わせたハイブリッド推論モデルのファミリーである。データキュレーション、合成、トレーニング、評価で直面する課題について述べ、これらの課題を大規模に解決するためのソリューションの概要を述べる。
論文参考訳（メタデータ） (Mon, 25 Aug 2025 17:45:06 GMT)
リポジトリはHermes 4 Collection – a NousResearch Collection

VibeVoice Technical Report [90.1]
VibeVoiceは、複数の話者で長めの音声を合成するために設計されたモデルである。本稿では,エンコーデックモデルと比較した場合,データ圧縮を80倍改善する新しい連続音声トークンを提案する。
論文参考訳（メタデータ） (Tue, 26 Aug 2025 17:09:12 GMT)
リポジトリはGitHub – microsoft/VibeVoice: Frontier Open-Source Text-to-Speech

NaturalSpeech 2

NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.8]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (Thu, 4 May 2023 17:08:20 GMT)
NaturalSpeech のバージョン２、Diffusion modelの利用、Speech prompting mechanisms for in-context learningによって強力な音声合成が可能
プロジェクトサイトはNaturalSpeech 2 (speechresearch.github.io)、サンプルの音声があるが、聞き分けがなかなか難しいレベルに感じる

SpeechPainter: 音声が欠けた部分を埋めるモデル

SpeechPainter: Text-conditioned Speech Inpainting [12.0]
本稿では,音声サンプルの最大1秒間を補助的なテキスト入力を利用して埋め込むモデルであるSpeechPainterを提案する。本研究では, 話者識別, 韻律, 記録環境条件を維持しながら, 適切な内容で音声を表現できることを実証する。
論文参考訳（メタデータ） (Tue, 15 Feb 2022 09:33:30 GMT)
- 音声（発話）データで一部が欠けたもの＋補助テキストを用いて欠けた部分を埋めるモデルの提案。プロジェクトサイトのデモが面白い。
  - 面白いと同時にFakeなものに使われそうで怖い。
- プロジェクトサイトAudio samples for “SpeechPainter: Text-conditioned Speech Inpainting”にサンプルが存在

Neural Speech Synthesisのサーベイ

A Survey on Neural Speech Synthesis [110.4]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTTSに関する包括的な調査を行っている。我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TTS、低リソースTTS、堅牢TTS、表現型TTS、適応型TTSなど、いくつかの先進的なトピックに焦点を当てる。
論文参考訳（メタデータ） (Tue, 29 Jun 2021 16:50:51 GMT)
- 全63ページ、引用数447と幅広いサーベイでText to Speechを概観するために非常に良い論文。Text to Speechの歴史から始まりその構成要素や特にニューラル系モデルの分類とその内容が説明されており、高度化の流れや将来の方向性を知る上でも素晴らしい内容だと思う。オープンな実装やコーパスなどリソースのまとめもありがたい。

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31