DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.2] 拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。 本研究は,それらの認知過程と強化学習手法について考察する。 我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。 論文参考訳(メタデータ) (Thu, 26 Jun 2025 15:46:40 GMT)
ARモデルとの挙動の差が興味深い論文。「Reinforcement learning (RL) and GRPO (Shao et al , 2024) have proven critical for enhancing AR models (Bercovich et al , 2025; Shao et al , 2025), but their application to dLLMs is less explored.」としたうえでDiffusion model用のCoupled-GRPOを提案。