DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation

  • DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.2]
    拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。 本研究は,それらの認知過程と強化学習手法について考察する。 我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
    論文  参考訳(メタデータ)   (Thu, 26 Jun 2025 15:46:40 GMT)
  • ARモデルとの挙動の差が興味深い論文。「Reinforcement learning (RL) and GRPO (Shao et al , 2024) have proven critical for enhancing AR models (Bercovich et al , 2025; Shao et al , 2025), but their application to dLLMs is less explored.」としたうえでDiffusion model用のCoupled-GRPOを提案。
  • リポジトリはhttps://github.com/apple/ml-diffucoder

Any-Order GPT as Masked Diffusion Model: Decoupling Formulation and Architecture 

Discrete Diffusion in Large Language and Multimodal Models: A Survey

  • Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.3]
    離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。 自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。 我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
    論文  参考訳(メタデータ)   (Mon, 16 Jun 2025 17:59:08 GMT)
  • Discrete Diffusion Language Models (dLLMs) とDiscrete Diffusion Multimodal Language Modelsのサーベイ
  • 全盛のAutoregressiveモデルとの関係・差異が興味深い。

Continuous Diffusion Model for Language Modeling, Energy-Based Diffusion Language Models for Text Generation 

  • Continuous Diffusion Model for Language Modeling [57.4]
    離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。 本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 08:54:29 GMT)
  • ARモデルに匹敵するRiemannian Diffusion Language Model (RDLM),の提案。
  • リポジトリはhttps://github.com/harryjo97/RDLM
  • 画像ではDiffusion Model → Autoregressive modelという流れもありつつ、言語ではDiffusion Modelを使うInception Labs, Mercury Coderが話題になっているのが面白い。
  • Energy-Based Diffusion Language Models for Text Generation [126.2]
    エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。 我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
    論文  参考訳(メタデータ)   (Fri, 28 Feb 2025 08:41:03 GMT)
  • こちらも「Through experiments on both small and large language modeling benchmarks, EDLM demonstrates state-of-the-art performance among diffusion models and approaches the quality of autoregressive models, while offering significant sampling speedup.」を主張。

Scaling Diffusion Language Models via Adaptation from Autoregressive Models 

  • Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.7]
    拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。 実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 23 Oct 2024 14:04:22 GMT)
  • 「Building on existing DLMs, we present a recipe for scaling DLMs by continuing training on off-the shelf autoregressive LLMs.」、Diffusion Language Modelが有望かは議論が分かれるところだとは思うが面白い手法。DiffuLLaMAはautoregressive modelと競合するとのこと。
  • リポジトリはGitHub – HKUNLP/DiffuLLaMA: DiffuGPT and DiffuLLaMA: Scaling Diffusion Language Models via Adaptation from Autoregressive Models

A Survey on Diffusion Models for Time Series and Spatio-Temporal Data

  • A Survey on Diffusion Models for Time Series and Spatio-Temporal Data [92.1]
    時系列データの研究は、時間とともにトレンドや異常を理解するために不可欠であり、様々な分野にわたる予測的な洞察を可能にする。 近年,拡散モデルが時系列やS時間データマイニングに広く応用されている。 時系列およびS時間データにおける拡散モデルの利用について概説し、それらをモデルカテゴリ、タスクタイプ、データモダリティ、実用的なアプリケーションドメインで分類する。 本調査は,医療,レコメンデーション,気候,エネルギー,オーディオ,交通など,さまざまな分野の応用を幅広くカバーしている。
    論文  参考訳(メタデータ)   (Mon, 29 Apr 2024 17:19:40 GMT)
  • Diffusionモデルの時系列データへの応用に関するサーベイ。「They are called after the mathematical process of diffusion, which is commonly used to describe phenomena such as particle movement in a gas or liquid.」との記載を見ると確かに歴史的にはこの応用の方がしっくりくるのか。。
  • リポジトリ GitHub – yyysjz1997/Awesome-TimeSeries-SpatioTemporal-Diffusion-Model: A list of current Diffusion Model for Time Series and SpatioTemporal Data with awesome resources (paper, application, review, survey, etc.).、も参考になる。

Diffusion of Thoughts

  • Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [98.5]
    Diffusion-of-Thought (DoT) は、拡散過程を通じて時間とともに拡散する推論ステップを可能にする。 実験の結果,マルチ桁乗算と小学校数学における DoT の有効性が示された。 DoTは、自己整合性復号化のような既存の推論エンハンス技術による有望な自己補正能力とメリットを紹介している。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 16:23:28 GMT)
  • CoTの改善に拡散モデルを使おうとする取り組み。implict CoTより優れているとのこと。面白い取り組みである一方「A notable limitation of DoT is its requirement for additional training to achieve accurate reasoning.」とある通り、この条件下だと比較ができているのかはやや疑問。汎用的なものを作れるんだろうか。。。
  • リポジトリはHKUNLP/diffusion-of-thoughts (github.com)

強化学習と拡散モデル

A Survey on Video Diffusion Model

  • A Survey on Video Diffusion Models [107.5]
    AI生成コンテンツ(AIGC)の最近の波は、コンピュータビジョンでかなりの成功を収めている。 その印象的な生成能力により、拡散モデルはGANと自動回帰変換器に基づく手法を徐々に置き換えており、画像生成や編集だけでなく、ビデオ関連研究の領域でも優れた性能を示す。 本稿では,AIGC時代の映像拡散モデルについて概観する。
    論文  参考訳(メタデータ)   (Mon, 16 Oct 2023 17:59:28 GMT)
  • ビデオの領域におけるDiffusionModelサーベイ、調査対象文献リストGitHub – ChenHsing/Awesome-Video-Diffusion-Models: [Arxiv] A Survey on Video Diffusion Modelsも参考になり、githubへのリンクなどもありがたい。

State of the Art on Diffusion Models for Visual Computing

  • State of the Art on Diffusion Models for Visual Computing [191.6]
    本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。 また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。 利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
    論文  参考訳(メタデータ)   (Wed, 11 Oct 2023 05:32:29 GMT)
  • 急速に研究&社会実装が進む拡散モデルに関するサーベイ
  • 挙げられている文献の新しさがこの分野の流行を物語っているように思う