ASR – arXiv最新論文の紹介

Qwen3-ASR Technical Report

Qwen3-ASR Technical Report [71.9]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。 Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文参考訳（メタデータ） (Thu, 29 Jan 2026 06:58:13 GMT)
QwenシリーズのASR最新版。「Qwen3-ASR-1.7B and Qwen3- ASR-0.6B finely support 30 languages, 22 Chinese dialects ASR, and English from countries and regions worldwide.」と小型高性能。様々な公開モデルが出るのはとてもありがたい。
リポジトリはGitHub – QwenLM/Qwen3-ASR: Qwen3-ASR is an open-source series of ASR models developed by the Qwen team at Alibaba Cloud, supporting stable multilingual speech/music/song recognition, language detection and timestamp prediction.

ESPnet-ST-v2

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit [61.5]
ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。本稿では,ESPnet-ST-v2の裏側における全体的な設計,各タスクのサンプルモデル,パフォーマンスベンチマークについて述べる。
論文参考訳（メタデータ） (Tue, 11 Apr 2023 17:44:53 GMT)
ESPnetのバージョン2
GitHub – espnet/espnet: End-to-End Speech Processing Toolkit

Whisper：OpenAIの高性能ASR

Introducing Whisper (openai.com)
Robust Speech Recognition via Large-Scale Weak Supervision
- 我々は,インターネット上の大量の音声の書き起こしのため音声処理システムの能力について検討する。マルチリンガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークに適合する。我々は、堅牢な音声処理のさらなる作業の基盤となるモデルと推論コードをリリースしている。
- コードはopenai/whisper (github.com)

OpenAIの音声認識システム。極めて大規模なデータ（全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。）が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。

多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31