コンテンツへスキップ
- Audio-Aware Large Language Models as Judges for Speaking Styles [123.4]
音声認識型大言語モデル(ALLM)を自動判断器として用いて音声の話し方を評価する。 4つの音声言語モデル(SLM)を用いて2つのタスクを完了し、人間とALMを用いてSLMの応答を判断する。 以上の結果から,現在のSLM,GPT-4o-audioでさえも,発話スタイルの制御や自然な対話生成に改善の余地があることが示唆された。
論文 参考訳(メタデータ) (Fri, 06 Jun 2025 11:05:48 GMT)
- 「By comparing the evaluation results from human and ALLM judges, we find that ALLMs can be used as automatic judges on these two tasks and achieve agreement with human judges comparable to the agreement within human judges.」とのこと。ALLM=Audio-aware large language models
- 認識できる以上、Judgeもできるのはそうだろうと思うが、有用な結果。LLM as a judge関連でマルチリンガル設定の制限が報告されているが、本件でも同様なのかは気になるところ。
- Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.8]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。 開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。 この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (Mon, 12 May 2025 09:04:16 GMT)
- Audio Question Answeringベンチマーク、DCASE 2025 Challengeの説明。audio captioningタスクより一歩進んだもので重要性が増すタスクだと思う。
- リポジトリはPeacefulData/2025_DCASE_AudioQA_Official · Datasets at Hugging Face
- On The Landscape of Spoken Language Models: A Comprehensive Survey [144.1]
音声言語モデル(SLM)は、普遍的な音声処理システムとして機能する。 この領域での作業は非常に多様であり、様々な用語と評価設定がある。
論文 参考訳(メタデータ) (Fri, 11 Apr 2025 13:40:53 GMT)
- 「In the last few years, the field of natural language processing (NLP) has evolved from (1) training many task-specific models from scratch, to (2) combining pre-trained multi-purpose contextual representation models (such as BERT (Devlin et al , 2019)) with a small number of task-specific parameters, to (3) training generative universal, large language models (LLMs (Brown et al , 2020; OpenAI et al , 2024)1) that perform arbitrary text tasks given natural language instructions (prompts) and can generalize to unseen domains and tasks (Wei et al , 2022a; Liu et al , 2023), and finally to (4) dialogue / chatbot systems that function as assistants and perform tasks while directly interacting with the user.」、「The field of speech processing has been undergoing a similar evolution, although with some lag, and has mainly focussed on stages (1) and (2).」から始まるspoken language models (SLMs) のサーベイ。
- Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.8]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。 第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。 評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (Fri, 08 Nov 2024 06:33:22 GMT)
- Dynamic-SUPERBのPhase2としてタスクが多様化・強化
- 現時点ではデータなどは公開されていないようだが、とても重要なベンチマーク
- AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [98.7]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。 その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (Mon, 12 Feb 2024 15:41:22 GMT)
- audio-language なベンチマーク。Foundation benchmark(基礎的タスク、emotion recognition, acoustic scene classification, music QAなど)とChat benchmark(実世界を想定した会話応答)で構成される。評価はGPT-4ベース。
- 「The evaluation code, datasets, and an open leaderboard will be made publicly available soon.」とのことで公開が楽しみ。
- A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI [64.7]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。 拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。 本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (Sun, 2 Apr 2023 09:27:20 GMT)
- text-to-speechとspeech enhancementを対象とした拡散モデル利用のサーベイ
- Audio Self-supervised Learning: A Survey [60.4]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。 コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理の分野で採用されている。
論文 参考訳(メタデータ) (Wed, 2 Mar 2022 15:58:29 GMT)- 音声分野でのSelf-supervised Learningをまとめたサーベイ。音声単体だけでなく音声+Visionのようなマルチモーダルな手法もサーベイ対象となっている。
- XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale [48.0]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。 128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 17 Nov 2021 18:49:42 GMT)
- SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing [77.5]
本稿では,自己教師付き音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。 SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。 テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。
論文 参考訳(メタデータ) (Thu, 14 Oct 2021 07:59:27 GMT)- T5に似た事前学習モデルを音声向けに構築、ASR、TTS、VC、SIDなど複数のタスクで効果を確認とのこと。TextlessNLPのような流れに向けた一歩になるのだろうか。
- ASR: Automatic Speech Recognition
- TTS: Text-To-Speech
- VC: Voice Conversion
- SID: Speaker IDentification