SeamlessM4T

  • SeamlessM4T-Massively Multilingual & Multimodal Machine Translation [90.7]
    音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。 我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。 FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。 
    論文  参考訳(メタデータ)   (Wed, 23 Aug 2023 21:02:01 GMT)
  • Metaによる多言語音声機械翻訳モデルでありS2ST(speech-to-speech translation), S2TT(speech-to-text translation), T2TT(text-to-text translation)+ ASR(automatic speech recognition)に対応。音声からの機械翻訳でSoTAを主張。
  • 以下がリポジトリでモデルも公開されている。https://github.com/facebookresearch/seamless_communication 「seamless_communication is CC-BY-NC 4.0 licensed, as found in LICENSE file」とのこと。

AudioPaLM、 Direct Speech-to-text Translationのサーベイ

  • AudioPaLM: A Large Language Model That Can Speak and Listen [79.4]
    本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。 音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
    論文  参考訳(メタデータ)   (Thu, 22 Jun 2023 14:37:54 GMT)
  • 音声とテキスト処理を融合するPaLM-2 +AudioLMな研究、Automatic Speech Translation (AST) 、Speech-to-Speech TranslationでSoTAを主張
  • プロジェクトサイトはAudioPaLM (google-research.github.io)

同時期に Direct Speech-to-text Translationのサーベイが出ていた。音声+テキストの融合はマルチモーダルな進化としては自然だと思う。TextlessNLPに向かっていくのだろうか?

  • Recent Advances in Direct Speech-to-text Translation [58.7]
    我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。 データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。 我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 16:14:27 GMT)

MUG: Meeting Understanding and Generation benchmark

  • MUG: A General Meeting Understanding and Generation Benchmark [60.1]
    我々はAliMeeting4MUG Corpusを構築した。 本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
    論文  参考訳(メタデータ)   (Fri, 24 Mar 2023 11:52:25 GMT)
  • 会議の理解と生成に関するデータセット
  • SLP(spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
  •  サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
  • リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)

Simple and Effective Unsupervised Speech Translation

  • Simple and Effective Unsupervised Speech Translation [68.3]
    ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。 事前学習された音声モデルに対する教師なし領域適応手法を提案する。 実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
    論文  参考訳(メタデータ)   (Tue, 18 Oct 2022 22:26:13 GMT)
  • unsupervised なspeech-to-text translation (S2TT)とspeech-to-speech translation (S2ST)構築方法の提案。既存の知見をゴリゴリ使うアプローチで界隈の状況を知る上でも非常に参考になる。

Whisper:OpenAIの高性能ASR

OpenAIの音声認識システム。極めて大規模なデータ(全680,000時間、438,000時間は音声とトランスクリプトが両方英語、126,000 時間は音声が英語以外、117,000時間は音声・トランスクリプトともに英語以外。全98言語を使用。)が用いられており高性能。日本語の認識能力も高くコードやモデルが公開されているのも凄い。

多言語→英語への翻訳機能もあり相応の性能、Textless NLPの可能性を感じる

DUAL(Discrete Unit Adaptive Learning): TextlessなSQA(Spoken Question Answering)

  • DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.7]
    SQA (Spoken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。 既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。 本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
    論文  参考訳(メタデータ)   (Wed, 9 Mar 2022 17:46:22 GMT)
    • Textlessな(音声認識を使わない)SQAフレームワークの提案。データセットとしてNatural Multi-Speaker Spoken Question Answering (NMSQA)も合わせて公開している。
    • ASRを併用するアプローチと競合的な結果で(当たり前ではあるが)ASR品質によっては提案手法が優れていることがあるとのこと。
    • リポジトリはGitHub – DanielLin94144/DUAL-textless-SQA: The official implementation of DUAL textless SQA

textless-lib: Textlessな(音声)自然言語処理ライブラリ

  • textless-lib: a Library for Textless Spoken Language Processing [50.1]
    我々はPyTorchベースのライブラリであるtextless-libを紹介した。 ライブラリが提供するビルディングブロックを説明し、そのユーザビリティを実証する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Tue, 15 Feb 2022 12:39:42 GMT)
    • TextlessNLP用のライブラリ、事前学習モデルも提供されている。テキスト化を通さず音声(発話)内容を処理していくアプローチはテキスト化で失われる情報の活用可能性があり非常に興味深い。

Speech-to-SQL: 音声からSQLクエリの作成

  • Speech-to-SQL: Towards Speech-driven SQL Query Generation From Natural Language Question [18.4]
    音声による入力は、スマートフォンやタブレットの人気により、大きな勢いを増している。 本稿では,構造化データデータベースを問合せするための,より効率的な音声インタフェースの設計について検討する。 我々は,人間の音声を直接クエリーに変換するために,SpeechNetという新しいエンドツーエンドニューラルアーキテクチャを提案する。
    論文  参考訳(メタデータ)   (Tue, 4 Jan 2022 15:38:36 GMT)
    • 音声からSQLクエリを作成するという研究。音声認識を経ないので有用な点はあるのかもしれない。(がSQL作成が有効かは謎ではある)

Textless Speech-to-Speech Translation

  • Textless Speech-to-Speech Translation on Real Data [49.1]
    本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。 マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
    論文  参考訳(メタデータ)   (Wed, 15 Dec 2021 18:56:35 GMT)
    • FacebookAIがMetaAIになっていた。はおいておいて、S2ST(Speech-to-Speech Translation )を使った論文。話者間で共通の語彙となるような音声正規化手法(self-supervised unit-based speech normalization process)を提案、テキストレスで機械翻訳を実現。思ったよりBLEUも高くて驚いた。
    • コード等も公開予定とのこと。

SpeechT5: 音声情報向けT5

  • SpeechT5: Unified-Modal Encoder-Decoder Pre-training for Spoken Language Processing [77.5]
    本稿では,自己教師付き音声/テキスト表現学習のためのエンコーダ・デコーダ事前学習を探索する統一モーダルなSpeechT5フレームワークを提案する。 SpeechT5フレームワークは共有エンコーダデコーダネットワークと6つのモーダル固有(音声/テキスト)プレ/ポストネットで構成されている。 テキスト情報と音声情報を統一的な意味空間に整合させるため,テキストとテキストをランダムに混合したクロスモーダルベクトル量子化法を提案する。
    論文  参考訳(メタデータ)   (Thu, 14 Oct 2021 07:59:27 GMT)
    • T5に似た事前学習モデルを音声向けに構築、ASR、TTS、VC、SIDなど複数のタスクで効果を確認とのこと。TextlessNLPのような流れに向けた一歩になるのだろうか。
      • ASR: Automatic Speech Recognition
      • TTS: Text-To-Speech
      • VC: Voice Conversion
      • SID: Speaker IDentification