- DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.7]
SQA (Spoken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。 既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。 本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (Wed, 9 Mar 2022 17:46:22 GMT)- Textlessな(音声認識を使わない)SQAフレームワークの提案。データセットとしてNatural Multi-Speaker Spoken Question Answering (NMSQA)も合わせて公開している。
- ASRを併用するアプローチと競合的な結果で(当たり前ではあるが)ASR品質によっては提案手法が優れていることがあるとのこと。
- リポジトリはGitHub – DanielLin94144/DUAL-textless-SQA: The official implementation of DUAL textless SQA