- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.7]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。 実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (Wed, 23 Oct 2024 14:04:22 GMT) - 「Building on existing DLMs, we present a recipe for scaling DLMs by continuing training on off-the shelf autoregressive LLMs.」、Diffusion Language Modelが有望かは議論が分かれるところだとは思うが面白い手法。DiffuLLaMAはautoregressive modelと競合するとのこと。
- リポジトリはGitHub – HKUNLP/DiffuLLaMA: DiffuGPT and DiffuLLaMA: Scaling Diffusion Language Models via Adaptation from Autoregressive Models