2023年1月9日 – arXiv最新論文の紹介

Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.6]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。 Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文参考訳（メタデータ） (Thu, 5 Jan 2023 15:37:15 GMT)
最近の言語モデルと似たアーキテクチャを用いたText to Speechモデルの提案。この分野にもpromptを用いたモデルが出てきているのが興味深い。
リポジトリはunilm/valle at master · microsoft/unilm · GitHub、でもページがVALL-E (valle-demo.github.io)にある。高品質な合成ができているように思う。

Massive Language Models Can Be Accurately Pruned in One-Shot [29.3]
大規模生成事前学習型トランスフォーマー(GPT)ファミリーモデルが1ショットで少なくとも50%の間隔で切断できることを初めて示す。これはSparseGPTと呼ばれる新しいプルーニング手法によって実現され、特に大規模GPTファミリーモデルにおいて効率的かつ正確に動作するように設計されている。
論文参考訳（メタデータ） (Mon, 2 Jan 2023 17:48:56 GMT)
one-shotなpruning手法の報告。OPTを対象にした実験では50％程度はあまり性能を落とさずにpruningできるよう。より大きなモデルのほうがスパース化しやすいという指摘も興味深い。