SeamlessM4T – arXiv最新論文の紹介

SeamlessM4T-Massively Multilingual & Multimodal Machine Translation [90.7]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。 FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文参考訳（メタデータ） (Wed, 23 Aug 2023 21:02:01 GMT)
Metaによる多言語音声機械翻訳モデルでありS2ST(speech-to-speech translation), S2TT(speech-to-text translation), T2TT(text-to-text translation)＋ ASR(automatic speech recognition)に対応。音声からの機械翻訳でSoTAを主張。
以下がリポジトリでモデルも公開されている。https://github.com/facebookresearch/seamless_communication　「seamless_communication is CC-BY-NC 4.0 licensed, as found in LICENSE file」とのこと。

コメントを残す

コメントを残す コメントをキャンセル