音声 – arXiv最新論文の紹介

CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset

CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset [99.1]
CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。 CS-FLEURSはまた、16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供している。
論文参考訳（メタデータ） (Wed, 17 Sep 2025 16:45:22 GMT)
リポジトリはbyan/cs-fleurs · Datasets at Hugging Face

Audio-Aware Large Language Models as Judges for Speaking Styles

Audio-Aware Large Language Models as Judges for Speaking Styles [123.4]
音声認識型大言語モデル(ALLM)を自動判断器として用いて音声の話し方を評価する。 4つの音声言語モデル(SLM)を用いて2つのタスクを完了し、人間とALMを用いてSLMの応答を判断する。以上の結果から,現在のSLM,GPT-4o-audioでさえも,発話スタイルの制御や自然な対話生成に改善の余地があることが示唆された。
論文参考訳（メタデータ） (Fri, 06 Jun 2025 11:05:48 GMT)
「By comparing the evaluation results from human and ALLM judges, we find that ALLMs can be used as automatic judges on these two tasks and achieve agreement with human judges comparable to the agreement within human judges.」とのこと。ALLM＝Audio-aware large language models
認識できる以上、Judgeもできるのはそうだろうと思うが、有用な結果。LLM as a judge関連でマルチリンガル設定の制限が報告されているが、本件でも同様なのかは気になるところ。

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.8]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文参考訳（メタデータ） (Mon, 12 May 2025 09:04:16 GMT)
Audio Question Answeringベンチマーク、DCASE 2025 Challengeの説明。audio captioningタスクより一歩進んだもので重要性が増すタスクだと思う。
リポジトリはPeacefulData/2025_DCASE_AudioQA_Official · Datasets at Hugging Face

On The Landscape of Spoken Language Models: A Comprehensive Survey

On The Landscape of Spoken Language Models: A Comprehensive Survey [144.1]
音声言語モデル(SLM)は、普遍的な音声処理システムとして機能する。この領域での作業は非常に多様であり、様々な用語と評価設定がある。
論文参考訳（メタデータ） (Fri, 11 Apr 2025 13:40:53 GMT)
「In the last few years, the field of natural language processing (NLP) has evolved from (1) training many task-specific models from scratch, to (2) combining pre-trained multi-purpose contextual representation models (such as BERT (Devlin et al , 2019)) with a small number of task-specific parameters, to (3) training generative universal, large language models (LLMs (Brown et al , 2020; OpenAI et al , 2024)1) that perform arbitrary text tasks given natural language instructions (prompts) and can generalize to unseen domains and tasks (Wei et al , 2022a; Liu et al , 2023), and finally to (4) dialogue / chatbot systems that function as assistants and perform tasks while directly interacting with the user.」、「The field of speech processing has been undergoing a similar evolution, although with some lag, and has mainly focussed on stages (1) and (2).」から始まるspoken language models (SLMs) のサーベイ。

Dynamic-SUPERB Phase-2

Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.8]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文参考訳（メタデータ） (Fri, 08 Nov 2024 06:33:22 GMT)
Dynamic-SUPERBのPhase2としてタスクが多様化・強化
現時点ではデータなどは公開されていないようだが、とても重要なベンチマーク

AIR-Bench: Audio InstRuction Benchmark

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [98.7]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 15:41:22 GMT)
audio-language なベンチマーク。Foundation benchmark（基礎的タスク、emotion recognition, acoustic scene classification, music QAなど）とChat benchmark（実世界を想定した会話応答）で構成される。評価はGPT-4ベース。
「The evaluation code, datasets, and an open leaderboard will be made publicly available soon.」とのことで公開が楽しみ。

LLASM: Large Language and Speech Model

LLaSM: Large Language and Speech Model [11.9]
大言語・音声モデル(Large Language and Speech Model, LLaSM)は、多モーダル言語モデルである。初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。
論文参考訳（メタデータ） (Wed, 30 Aug 2023 10:12:39 GMT)
LLM＋音声なマルチモーダルモデルの提案
Whisper で分散表現に変換Modal Adaptorを通したものをテキストとともに扱う形式、ベースのLLMは Chinese-LLAMA2-7Bとのこと。fine tuning用データはtext-to-speech APIで作成。性能評価が無いような気がするが、この方針でうまくいくのだろうか・・・？
リポジトリはGitHub – LinkSoul-AI/LLaSM: 第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验，同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。、HuggingFaceはLinkSoul/LLaSM-Cllama2 · Hugging Face

Audio Diffusion Modelに関するサーベイ

A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI [64.7]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文参考訳（メタデータ） (Sun, 2 Apr 2023 09:27:20 GMT)
text-to-speechとspeech enhancementを対象とした拡散モデル利用のサーベイ

Audio Self-supervised Learningのサーベイ

Audio Self-supervised Learning: A Survey [60.4]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理の分野で採用されている。
論文参考訳（メタデータ） (Wed, 2 Mar 2022 15:58:29 GMT)
- 音声分野でのSelf-supervised Learningをまとめたサーベイ。音声単体だけでなく音声＋Visionのようなマルチモーダルな手法もサーベイ対象となっている。

XLS-R(Cross-lingual Speech Representation): 多言語音声の大規模事前学習

XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale [48.0]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。 128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文参考訳（メタデータ）参考訳（全文） (Wed, 17 Nov 2021 18:49:42 GMT)
- 巨大モデルで音声翻訳、音声認識、言語認識、話者認識など様々なタスクで優れた性能。英語方向のCoVoST-2でSoTAなど印象的な結果。
  - NLPの巨大言語モデルを見るに違和感はないが、巨大化はどこまで行くのだろう。。。
- リポジトリはhttps://github.com/pytorch/fairseq/tree/main/examples/wav2vec/xlsr

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30