- AudioPaLM: A Large Language Model That Can Speak and Listen [79.4]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。 音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (Thu, 22 Jun 2023 14:37:54 GMT) - 音声とテキスト処理を融合するPaLM-2 +AudioLMな研究、Automatic Speech Translation (AST) 、Speech-to-Speech TranslationでSoTAを主張
- プロジェクトサイトはAudioPaLM (google-research.github.io)
同時期に Direct Speech-to-text Translationのサーベイが出ていた。音声+テキストの融合はマルチモーダルな進化としては自然だと思う。TextlessNLPに向かっていくのだろうか?
- Recent Advances in Direct Speech-to-text Translation [58.7]
我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。 データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。 我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
論文 参考訳(メタデータ) (Tue, 20 Jun 2023 16:14:27 GMT)