コンテンツへスキップ
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.2]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。 本研究は,それらの認知過程と強化学習手法について考察する。 我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (Thu, 26 Jun 2025 15:46:40 GMT)
- ARモデルとの挙動の差が興味深い論文。「Reinforcement learning (RL) and GRPO (Shao et al , 2024) have proven critical for enhancing AR models (Bercovich et al , 2025; Shao et al , 2025), but their application to dLLMs is less explored.」としたうえでDiffusion model用のCoupled-GRPOを提案。
- リポジトリはhttps://github.com/apple/ml-diffucoder
- Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.3]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。 自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。 我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文 参考訳(メタデータ) (Mon, 16 Jun 2025 17:59:08 GMT)
- Discrete Diffusion Language Models (dLLMs) とDiscrete Diffusion Multimodal Language Modelsのサーベイ
- 全盛のAutoregressiveモデルとの関係・差異が興味深い。