Scaling Behavior of Discrete Diffusion Language Models

  • Scaling Behavior of Discrete Diffusion Language Models [74.7]
    離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。 実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。 均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
    論文  参考訳(メタデータ)   (Thu, 11 Dec 2025 17:54:10 GMT)
  • 最近研究が進み応用事例も出てきているDiffusion language modelに対して「Our findings support the case for discrete diffusion language models (DLMs) as a viable alternative to autoregressive language models (ALMs), the prevalent paradigm. DLMs can resolve core limitations of ALMs, enabling parallel generation for improved throughput, possessing the ability to revise and self-correct previously generated tokens, providing trivial ways of scaling test-time compute, and now also showing signs of improved scaling behavior with increased training compute. All in all, we conclude that DLMs in general, and uniform diffusion in particular, are promising candidates for next-generation LLMs.」と主張。
  • リポジトリはGitHub – dvruette/gidd-easydel

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です