- ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit [61.5]
ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。 本稿では,ESPnet-ST-v2の裏側における全体的な設計,各タスクのサンプルモデル,パフォーマンスベンチマークについて述べる。
論文 参考訳(メタデータ) (Tue, 11 Apr 2023 17:44:53 GMT) - ESPnetのバージョン2
- GitHub – espnet/espnet: End-to-End Speech Processing Toolkit
タグ: ASR
Whisper:OpenAIの高性能ASR
- Introducing Whisper (openai.com)
- Robust Speech Recognition via Large-Scale Weak Supervision
- 我々は,インターネット上の大量の音声の書き起こしのため音声処理システムの能力について検討する。マルチリンガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークに適合する。我々は、堅牢な音声処理のさらなる作業の基盤となるモデルと推論コードをリリースしている。
- コードはopenai/whisper (github.com)
OpenAIの音声認識システム。極めて大規模なデータ(全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。)が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。
多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる