コンテンツへスキップ
- State of the Art on Diffusion Models for Visual Computing [191.6]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。 また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。 利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文 参考訳(メタデータ) (Wed, 11 Oct 2023 05:32:29 GMT)
- 急速に研究&社会実装が進む拡散モデルに関するサーベイ
- 挙げられている文献の新しさがこの分野の流行を物語っているように思う
- A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI [64.7]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。 拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。 本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (Sun, 2 Apr 2023 09:27:20 GMT)
- text-to-speechとspeech enhancementを対象とした拡散モデル利用のサーベイ
- Diffusion Models in Vision: A Survey [80.8]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。 拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (Thu, 23 Mar 2023 11:42:58 GMT)
- 非常にはやっているDiffusionモデルのサーベイ
- タスクも手法も非常に多く把握するのが大変な状況。。。
- Your Diffusion Model is Secretly a Zero-Shot Classifier [83.3]
大規模なテキスト・画像拡散モデルからの密度推定は、追加の訓練をすることなくゼロショット分類を行うことができることを示す。 分類への我々の生成的アプローチは、様々なベンチマークにおいて強力な結果を得ることができ、拡散モデルから知識を抽出する代替手法よりも優れている。
論文 参考訳(メタデータ) (Tue, 28 Mar 2023 17:59:56 GMT)
- Diffusion Modelを分類器として使えるという報告。結果には全く違和感はないが、Synthetic SD Data(Diffusion Modelからの合成データを用いるアプローチ)をはるかに超える性能を出しているのはすごい。
- リポジトリはDiffusion Classifier (diffusion-classifier.github.io)
- Extracting Training Data from Diffusion Models [77.1]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。 生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。 さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (Mon, 30 Jan 2023 18:53:09 GMT)
- Diffusionモデルは絵を生成している?複製している? – arXiv最新論文の紹介 (devneko.jp)と近しい話題で画像を記憶し元データと非常に近い画像を出力することがあるとの報告。「We see that state-of-the-art diffusion models memorize 2× more than comparable GANs」と記載があり、GANより深刻とのこと。
- 人間でも似たようなことはある…という話はあるものの社会実装では対策が必要だと思う。(元画像に近いかどうかというものだが、著作権や商標を侵害しなけない出力への対応も必要)
- Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models [53.0]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。 フレームワークをCeleb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製にどのように影響するかを議論する。
論文 参考訳(メタデータ) (Thu, 8 Dec 2022 18:59:30 GMT)
- 拡散モデルが絵を描いているのか学習データからコピーしているのかを検知するフレームワークの提案。サンプルとしてコピーとみなせそうな例が挙げられている。
- 論文中には「Furthermore, it is highly likely that replication exists that our retrieval method is unable to identify.」との記載もあり、生成モデルがバズった中で言われていた懸念は現実的なリスクのよう。