Continuous Diffusion Model for Language Modeling, Energy-Based Diffusion Language Models for Text Generation 

  • Continuous Diffusion Model for Language Modeling [57.4]
    離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。 本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
    論文  参考訳(メタデータ)   (Mon, 17 Feb 2025 08:54:29 GMT)
  • ARモデルに匹敵するRiemannian Diffusion Language Model (RDLM),の提案。
  • リポジトリはhttps://github.com/harryjo97/RDLM
  • 画像ではDiffusion Model → Autoregressive modelという流れもありつつ、言語ではDiffusion Modelを使うInception Labs, Mercury Coderが話題になっているのが面白い。
  • Energy-Based Diffusion Language Models for Text Generation [126.2]
    エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。 我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
    論文  参考訳(メタデータ)   (Fri, 28 Feb 2025 08:41:03 GMT)
  • こちらも「Through experiments on both small and large language modeling benchmarks, EDLM demonstrates state-of-the-art performance among diffusion models and approaches the quality of autoregressive models, while offering significant sampling speedup.」を主張。

Scaling Diffusion Language Models via Adaptation from Autoregressive Models 

  • Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.7]
    拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。 実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
    論文  参考訳(メタデータ)   (Wed, 23 Oct 2024 14:04:22 GMT)
  • 「Building on existing DLMs, we present a recipe for scaling DLMs by continuing training on off-the shelf autoregressive LLMs.」、Diffusion Language Modelが有望かは議論が分かれるところだとは思うが面白い手法。DiffuLLaMAはautoregressive modelと競合するとのこと。
  • リポジトリはGitHub – HKUNLP/DiffuLLaMA: DiffuGPT and DiffuLLaMA: Scaling Diffusion Language Models via Adaptation from Autoregressive Models

A Survey on Diffusion Models for Time Series and Spatio-Temporal Data

  • A Survey on Diffusion Models for Time Series and Spatio-Temporal Data [92.1]
    時系列データの研究は、時間とともにトレンドや異常を理解するために不可欠であり、様々な分野にわたる予測的な洞察を可能にする。 近年,拡散モデルが時系列やS時間データマイニングに広く応用されている。 時系列およびS時間データにおける拡散モデルの利用について概説し、それらをモデルカテゴリ、タスクタイプ、データモダリティ、実用的なアプリケーションドメインで分類する。 本調査は,医療,レコメンデーション,気候,エネルギー,オーディオ,交通など,さまざまな分野の応用を幅広くカバーしている。
    論文  参考訳(メタデータ)   (Mon, 29 Apr 2024 17:19:40 GMT)
  • Diffusionモデルの時系列データへの応用に関するサーベイ。「They are called after the mathematical process of diffusion, which is commonly used to describe phenomena such as particle movement in a gas or liquid.」との記載を見ると確かに歴史的にはこの応用の方がしっくりくるのか。。
  • リポジトリ GitHub – yyysjz1997/Awesome-TimeSeries-SpatioTemporal-Diffusion-Model: A list of current Diffusion Model for Time Series and SpatioTemporal Data with awesome resources (paper, application, review, survey, etc.).、も参考になる。

Diffusion of Thoughts

  • Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [98.5]
    Diffusion-of-Thought (DoT) は、拡散過程を通じて時間とともに拡散する推論ステップを可能にする。 実験の結果,マルチ桁乗算と小学校数学における DoT の有効性が示された。 DoTは、自己整合性復号化のような既存の推論エンハンス技術による有望な自己補正能力とメリットを紹介している。
    論文  参考訳(メタデータ)   (Mon, 12 Feb 2024 16:23:28 GMT)
  • CoTの改善に拡散モデルを使おうとする取り組み。implict CoTより優れているとのこと。面白い取り組みである一方「A notable limitation of DoT is its requirement for additional training to achieve accurate reasoning.」とある通り、この条件下だと比較ができているのかはやや疑問。汎用的なものを作れるんだろうか。。。
  • リポジトリはHKUNLP/diffusion-of-thoughts (github.com)

強化学習と拡散モデル

A Survey on Video Diffusion Model

  • A Survey on Video Diffusion Models [107.5]
    AI生成コンテンツ(AIGC)の最近の波は、コンピュータビジョンでかなりの成功を収めている。 その印象的な生成能力により、拡散モデルはGANと自動回帰変換器に基づく手法を徐々に置き換えており、画像生成や編集だけでなく、ビデオ関連研究の領域でも優れた性能を示す。 本稿では,AIGC時代の映像拡散モデルについて概観する。
    論文  参考訳(メタデータ)   (Mon, 16 Oct 2023 17:59:28 GMT)
  • ビデオの領域におけるDiffusionModelサーベイ、調査対象文献リストGitHub – ChenHsing/Awesome-Video-Diffusion-Models: [Arxiv] A Survey on Video Diffusion Modelsも参考になり、githubへのリンクなどもありがたい。

State of the Art on Diffusion Models for Visual Computing

  • State of the Art on Diffusion Models for Visual Computing [191.6]
    本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。 また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。 利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
    論文  参考訳(メタデータ)   (Wed, 11 Oct 2023 05:32:29 GMT)
  • 急速に研究&社会実装が進む拡散モデルに関するサーベイ
  • 挙げられている文献の新しさがこの分野の流行を物語っているように思う

SeqDiffuSeq

  • SeqDiffuSeq: Text Diffusion Model with Encoder-Decoder Transformers for Sequence-to-Sequence Generation [50.9]
    本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。 シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。 実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
    論文  参考訳(メタデータ)   (Wed, 3 May 2023 07:43:22 GMT)
  • Diffusion Modelによる系列データ(テキストデータ)の作成、タスクによって結果はまちまちという感じで機械翻訳性能はベースラインに負けていそう。
  • リポジトリはGitHub – Yuanhy1997/SeqDiffuSeq: SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers

Audio Diffusion Modelに関するサーベイ

  • A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI [64.7]
    生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。 拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。 本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
    論文  参考訳(メタデータ)   (Sun, 2 Apr 2023 09:27:20 GMT)
  • text-to-speechとspeech enhancementを対象とした拡散モデル利用のサーベイ

Diffusion Models in Vision: A Survey

  • Diffusion Models in Vision: A Survey [80.8]
    拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。 拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
    論文  参考訳(メタデータ)   (Thu, 23 Mar 2023 11:42:58 GMT)
  • 非常にはやっているDiffusionモデルのサーベイ
  • タスクも手法も非常に多く把握するのが大変な状況。。。