SpeechPainter: 音声が欠けた部分を埋めるモデル

  • SpeechPainter: Text-conditioned Speech Inpainting [12.0]
    本稿では,音声サンプルの最大1秒間を補助的なテキスト入力を利用して埋め込むモデルであるSpeechPainterを提案する。 本研究では, 話者識別, 韻律, 記録環境条件を維持しながら, 適切な内容で音声を表現できることを実証する。
    論文  参考訳(メタデータ)   (Tue, 15 Feb 2022 09:33:30 GMT)
    • 音声(発話)データで一部が欠けたもの+補助テキストを用いて欠けた部分を埋めるモデルの提案。プロジェクトサイトのデモが面白い。
      • 面白いと同時にFakeなものに使われそうで怖い。
    • プロジェクトサイトAudio samples for “SpeechPainter: Text-conditioned Speech Inpainting”にサンプルが存在

NLPデータセットに対するScaling Law

  • Scaling Laws Under the Microscope: Predicting Transformer Performance from Small Scale Experiments [42.8]
    本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。 スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。 スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
    論文  参考訳(メタデータ)   (Sun, 13 Feb 2022 19:13:00 GMT)
    • SST-2、QNLI、MRPC、RACE、SQuAD 1.1、SQuAD 2.0、BoolQ、CoLA 、MNLIに対してパラメータ数と性能の関係を調査、Scaling Lawsは大規模化した際のパフォーマンス予測に有用では?との結論
      • ネットワークアーキテクチャやデータにもよるんじゃないかとも思いつつ、実験結果は興味深い