音声認識 – arXiv最新論文の紹介

Test-time Adaptation for Automatic Speech Recognition

Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.8]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文参考訳（メタデータ） (Sun, 27 Mar 2022 06:38:39 GMT)
- ASRの共変量シフトに対してTest-Time Adaptation を適用した報告。1回の発話に対してadaptationを行っているのが興味深い
- リポジトリはGitHub – DanielLin94144/Test-time-adaptation-ASR-SUTA

SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.7]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文参考訳（メタデータ） (Fri, 19 Nov 2021 18:59:23 GMT)
- 音声を用いたASR（Automatic Speech Recognition）、NER（Named Entity Recognition）、SA（Sentiment Analysis）タスクのベンチマーク。
- プロジェクトサイトはGitHub – asappresearch/slue-toolkit

A Configurable Multilingual Model is All You Need to Recognize All Languages [52.3]
本稿では,1回しか訓練されない新しい多言語モデル(CMM)を提案する。 CMMは、ユーザが1つ、2つ、3つの言語を選択すると、一般的な多言語モデルから26.4%、16.9%、および10.4%の単語誤りを減らす。
論文参考訳（メタデータ） (Tue, 13 Jul 2021 06:52:41 GMT)
- 言語指定可能なマルチリンガルな音声認識モデルを構築することで1言語のモデル及び通常のマルチリンガルモデルの性能を上回ったとの報告。
- 認識対象の言語が分かっているほうが聞き取りやすい、多言語での訓練が単言語においても有効（人間が出せる音は言語が変わっても共通部分がある）というのは人間っぽいなという感想を抱いた。