AudioPaLM、 Direct Speech-to-text Translationのサーベイ

  • AudioPaLM: A Large Language Model That Can Speak and Listen [79.4]
    本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。 音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
    論文  参考訳(メタデータ)   (Thu, 22 Jun 2023 14:37:54 GMT)
  • 音声とテキスト処理を融合するPaLM-2 +AudioLMな研究、Automatic Speech Translation (AST) 、Speech-to-Speech TranslationでSoTAを主張
  • プロジェクトサイトはAudioPaLM (google-research.github.io)

同時期に Direct Speech-to-text Translationのサーベイが出ていた。音声+テキストの融合はマルチモーダルな進化としては自然だと思う。TextlessNLPに向かっていくのだろうか?

  • Recent Advances in Direct Speech-to-text Translation [58.7]
    我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。 データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。 我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 16:14:27 GMT)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です