Continuous Diffusion Model for Language Modeling, Energy-Based Diffusion Language Models for Text Generation
Continuous Diffusion Model for Language Modeling [57.4] 離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。 本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。 論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:54:29 GMT)
ARモデルに匹敵するRiemannian Diffusion Language Model (RDLM),の提案。
画像ではDiffusion Model → Autoregressive modelという流れもありつつ、言語ではDiffusion Modelを使うInception Labs, Mercury Coderが話題になっているのが面白い。
Energy-Based Diffusion Language Models for Text Generation [126.2] エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。 我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。 論文参考訳(メタデータ) (Fri, 28 Feb 2025 08:41:03 GMT)
こちらも「Through experiments on both small and large language modeling benchmarks, EDLM demonstrates state-of-the-art performance among diffusion models and approaches the quality of autoregressive models, while offering significant sampling speedup.」を主張。