Neural Speech Synthesisのサーベイ

  • A Survey on Neural Speech Synthesis [110.4]
    テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。 我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTTSに関する包括的な調査を行っている。 我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TTS、低リソースTTS、堅牢TTS、表現型TTS、適応型TTSなど、いくつかの先進的なトピックに焦点を当てる。
    論文  参考訳(メタデータ)   (Tue, 29 Jun 2021 16:50:51 GMT)
    • 全63ページ、引用数447と幅広いサーベイでText to Speechを概観するために非常に良い論文。Text to Speechの歴史から始まりその構成要素や特にニューラル系モデルの分類とその内容が説明されており、高度化の流れや将来の方向性を知る上でも素晴らしい内容だと思う。オープンな実装やコーパスなどリソースのまとめもありがたい。

TWAG(Topic-guided Wikipedia Abstract Generator ): トピックガイド付きウィキペディア抽象要約生成

  • TWAG: A Topic-Guided Wikipedia Abstract Generator [23.9]
    Wikipediaの抽象生成は、webソースからwikipediaの要約を蒸留することを目的としており、マルチドキュメント要約技術を採用することで大きな成功を収めている。 それまでの著作では、抽象概念を平易なテキストとみなしており、要約があるエンティティを説明し異なるトピックに分解できるという事実を無視している。 本稿では,トピック情報を用いた2段階モデルTWAGを提案する。
    論文  参考訳(メタデータ)   (Tue, 29 Jun 2021 07:42:08 GMT)
    • パラグラフとそのトピック情報を用い、トピックに応じた要約をすることでWikiCatSum datasetにおいてBARTなどより優れた結果を出したとの報告。
    • ソース等はhttps://github.com/THU-KEG/TWAGから参照可能。