強化学習と拡散モデル

A Survey on Video Diffusion Model

  • A Survey on Video Diffusion Models [107.5]
    AI生成コンテンツ(AIGC)の最近の波は、コンピュータビジョンでかなりの成功を収めている。 その印象的な生成能力により、拡散モデルはGANと自動回帰変換器に基づく手法を徐々に置き換えており、画像生成や編集だけでなく、ビデオ関連研究の領域でも優れた性能を示す。 本稿では,AIGC時代の映像拡散モデルについて概観する。
    論文  参考訳(メタデータ)   (Mon, 16 Oct 2023 17:59:28 GMT)
  • ビデオの領域におけるDiffusionModelサーベイ、調査対象文献リストGitHub – ChenHsing/Awesome-Video-Diffusion-Models: [Arxiv] A Survey on Video Diffusion Modelsも参考になり、githubへのリンクなどもありがたい。

State of the Art on Diffusion Models for Visual Computing

  • State of the Art on Diffusion Models for Visual Computing [191.6]
    本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。 また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。 利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
    論文  参考訳(メタデータ)   (Wed, 11 Oct 2023 05:32:29 GMT)
  • 急速に研究&社会実装が進む拡散モデルに関するサーベイ
  • 挙げられている文献の新しさがこの分野の流行を物語っているように思う

SeqDiffuSeq

  • SeqDiffuSeq: Text Diffusion Model with Encoder-Decoder Transformers for Sequence-to-Sequence Generation [50.9]
    本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。 シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。 実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
    論文  参考訳(メタデータ)   (Wed, 3 May 2023 07:43:22 GMT)
  • Diffusion Modelによる系列データ(テキストデータ)の作成、タスクによって結果はまちまちという感じで機械翻訳性能はベースラインに負けていそう。
  • リポジトリはGitHub – Yuanhy1997/SeqDiffuSeq: SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers

Audio Diffusion Modelに関するサーベイ

  • A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI [64.7]
    生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。 拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。 本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
    論文  参考訳(メタデータ)   (Sun, 2 Apr 2023 09:27:20 GMT)
  • text-to-speechとspeech enhancementを対象とした拡散モデル利用のサーベイ

Diffusion Models in Vision: A Survey

  • Diffusion Models in Vision: A Survey [80.8]
    拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。 拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
    論文  参考訳(メタデータ)   (Thu, 23 Mar 2023 11:42:58 GMT)
  • 非常にはやっているDiffusionモデルのサーベイ
  • タスクも手法も非常に多く把握するのが大変な状況。。。

Your Diffusion Model is Secretly a Zero-Shot Classifier 

  • Your Diffusion Model is Secretly a Zero-Shot Classifier [83.3]
    大規模なテキスト・画像拡散モデルからの密度推定は、追加の訓練をすることなくゼロショット分類を行うことができることを示す。 分類への我々の生成的アプローチは、様々なベンチマークにおいて強力な結果を得ることができ、拡散モデルから知識を抽出する代替手法よりも優れている。
    論文  参考訳(メタデータ)   (Tue, 28 Mar 2023 17:59:56 GMT)
  • Diffusion Modelを分類器として使えるという報告。結果には全く違和感はないが、Synthetic SD Data(Diffusion Modelからの合成データを用いるアプローチ)をはるかに超える性能を出しているのはすごい。
  • リポジトリはDiffusion Classifier (diffusion-classifier.github.io)

Word-As-Image for Semantic Typography

  • Word-As-Image for Semantic Typography [41.4]
    単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。 本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 09:59:25 GMT)
  • 看板などで使われる単語の一部が絵になっているような画像を作成する手法の提案。プロジェクトサイトの動画が分かりやすい。
  • プロジェクトサイトはWord-As-Image for Semantic Typography (wordasimage.github.io)

RealFusion: 360

  • RealFusion: 360{\deg} Reconstruction of Any Object from a Single Image [98.5]
    対象物の全360度写真モデルを1枚の画像から再構成する際の問題点を考察する。 我々は拡散に基づく自己条件付き画像生成装置を取り、オブジェクトの新たなビューを夢見るように促すプロンプトを設計する。
    論文  参考訳(メタデータ)   (Tue, 21 Feb 2023 13:25:35 GMT)
  • 1枚の画像から360度の写真モデルを再構成、デモが凄い
  • 2次元の学習済みDiffusion Modelを知識源として使っており、パイプライン構成が想像して作る人間っぽいと思ってしまった
  • リポジトリはRealFusion: 360° Reconstruction of Any Object from a Single Image (lukemelas.github.io)

Extracting Training Data from Diffusion Models 

  • Extracting Training Data from Diffusion Models [77.1]
    拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。 生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。 さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
    論文  参考訳(メタデータ)   (Mon, 30 Jan 2023 18:53:09 GMT)
  • Diffusionモデルは絵を生成している?複製している? – arXiv最新論文の紹介 (devneko.jp)と近しい話題で画像を記憶し元データと非常に近い画像を出力することがあるとの報告。「We see that state-of-the-art diffusion models memorize 2× more than comparable GANs」と記載があり、GANより深刻とのこと。
  • 人間でも似たようなことはある…という話はあるものの社会実装では対策が必要だと思う。(元画像に近いかどうかというものだが、著作権や商標を侵害しなけない出力への対応も必要)