SpeechT5 – arXiv最新論文の紹介

The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task [90.2]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。 YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文参考訳（メタデータ） (Sun, 12 Jun 2022 16:13:01 GMT)
- E2Eのスピーチ翻訳、昨年に比べて +5.2 BLEU と進化が速い。
- リポジトリはGitHub – microsoft/SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing

SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing [77.5]
本稿では,自己教師付き音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。 SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。
論文参考訳（メタデータ） (Thu, 14 Oct 2021 07:59:27 GMT)
- T5に似た事前学習モデルを音声向けに構築、ASR、TTS、VC、SIDなど複数のタスクで効果を確認とのこと。TextlessNLPのような流れに向けた一歩になるのだろうか。
  - ASR: Automatic Speech Recognition
  - TTS: Text-To-Speech
  - VC: Voice Conversion
  - SID: Speaker IDentiﬁcation

タグ: SpeechT5