- Mercury: Ultra-Fast Language Models Based on Diffusion [58.5]
拡散に基づく新しい商用大規模言語モデル(LLM)であるMercuryを提示する。 Mercury CoderにはMiniとSmallの2つのサイズがある。 独立した評価に基づいて、マーキュリー・コーダ・ミニとマーキュリー・コーダ・スモールは、それぞれ1109トークン/秒と737トークン/秒の最先端のスループットを達成した。
論文 参考訳(メタデータ) (Tue, 17 Jun 2025 17:06:18 GMT) - Continuous Diffusion Model for Language Modeling, Energy-Based Diffusion Language Models for Text Generation – arXiv最新論文の紹介で少しだけ取り上げたMercuryに関する論文
- サイトはInception Platform
日: 2025年7月4日
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.2]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。 本研究は,それらの認知過程と強化学習手法について考察する。 我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (Thu, 26 Jun 2025 15:46:40 GMT) - ARモデルとの挙動の差が興味深い論文。「Reinforcement learning (RL) and GRPO (Shao et al , 2024) have proven critical for enhancing AR models (Bercovich et al , 2025; Shao et al , 2025), but their application to dLLMs is less explored.」としたうえでDiffusion model用のCoupled-GRPOを提案。
- リポジトリはhttps://github.com/apple/ml-diffucoder
Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture
- Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture [65.9]
自己回帰(AR)モデルの代替として、仮面拡散モデル(MDM)が登場している。 ARモデルはデコーダのみであることが多いが、MDMはエンコーダのみである。 本研究は,デコーダのみのフレームワークにおけるMDMを評価した。 MDM内でアーキテクチャの影響(デコーダのみ対エンコーダのみ)を調査する。
論文 参考訳(メタデータ) (Tue, 24 Jun 2025 18:22:25 GMT) - AutoRegressive (AR) と Masked Diffusion Models (MDMs)の比較評価。
- リポジトリはGitHub – scxue/AO-GPT-MDM: Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture. Training an MDM using GPT with this repo!
Discrete Diffusion in Large Language and Multimodal Models: A Survey
- Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.3]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。 自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。 我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文 参考訳(メタデータ) (Mon, 16 Jun 2025 17:59:08 GMT) - Discrete Diffusion Language Models (dLLMs) とDiscrete Diffusion Multimodal Language Modelsのサーベイ
- 全盛のAutoregressiveモデルとの関係・差異が興味深い。