DUAL(Discrete Unit Adaptive Learning): TextlessなSQA(Spoken Question Answering)

DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.7]
SQA (Spoken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文参考訳（メタデータ） (Wed, 9 Mar 2022 17:46:22 GMT)
- Textlessな(音声認識を使わない)SQAフレームワークの提案。データセットとしてNatural Multi-Speaker Spoken Question Answering (NMSQA)も合わせて公開している。
- ASRを併用するアプローチと競合的な結果で（当たり前ではあるが）ASR品質によっては提案手法が優れていることがあるとのこと。
- リポジトリはGitHub – DanielLin94144/DUAL-textless-SQA: The official implementation of DUAL textless SQA

コメントを残す

コメントを残す コメントをキャンセル