DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation

  • DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.2]
    拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。 本研究は,それらの認知過程と強化学習手法について考察する。 我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
    論文  参考訳(メタデータ)   (Thu, 26 Jun 2025 15:46:40 GMT)
  • ARモデルとの挙動の差が興味深い論文。「Reinforcement learning (RL) and GRPO (Shao et al , 2024) have proven critical for enhancing AR models (Bercovich et al , 2025; Shao et al , 2025), but their application to dLLMs is less explored.」としたうえでDiffusion model用のCoupled-GRPOを提案。
  • リポジトリはhttps://github.com/apple/ml-diffucoder

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です