- Word-As-Image for Semantic Typography [41.4]
単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。 本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
論文 参考訳(メタデータ) (Fri, 3 Mar 2023 09:59:25 GMT) - 看板などで使われる単語の一部が絵になっているような画像を作成する手法の提案。プロジェクトサイトの動画が分かりやすい。
- プロジェクトサイトはWord-As-Image for Semantic Typography (wordasimage.github.io)
タグ: Diffusion Model
RealFusion: 360
- RealFusion: 360{\deg} Reconstruction of Any Object from a Single Image [98.5]
対象物の全360度写真モデルを1枚の画像から再構成する際の問題点を考察する。 我々は拡散に基づく自己条件付き画像生成装置を取り、オブジェクトの新たなビューを夢見るように促すプロンプトを設計する。
論文 参考訳(メタデータ) (Tue, 21 Feb 2023 13:25:35 GMT) - 1枚の画像から360度の写真モデルを再構成、デモが凄い
- 2次元の学習済みDiffusion Modelを知識源として使っており、パイプライン構成が想像して作る人間っぽいと思ってしまった
- リポジトリはRealFusion: 360° Reconstruction of Any Object from a Single Image (lukemelas.github.io)
Extracting Training Data from Diffusion Models
- Extracting Training Data from Diffusion Models [77.1]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。 生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。 さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (Mon, 30 Jan 2023 18:53:09 GMT) - Diffusionモデルは絵を生成している?複製している? – arXiv最新論文の紹介 (devneko.jp)と近しい話題で画像を記憶し元データと非常に近い画像を出力することがあるとの報告。「We see that state-of-the-art diffusion models memorize 2× more than comparable GANs」と記載があり、GANより深刻とのこと。
- 人間でも似たようなことはある…という話はあるものの社会実装では対策が必要だと思う。(元画像に近いかどうかというものだが、著作権や商標を侵害しなけない出力への対応も必要)
Dreamix
- Dreamix: Video Diffusion Models are General Video Editors [22.1]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。 一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (Thu, 2 Feb 2023 18:58:58 GMT) - ビデオに対してテキストで指示する事によるビデオ合成。デモを見るのが分かりやすいが、やっと画像で対してできるようになった感があることが動画に対して実現できている。また、画像→動画への変換も可能。
- デモなどはDreamix: Video Diffusion Models are General Video Editors (dreamix-video-editing.github.io)
- 論文中には「VDMs are computationally expensive」と書かれているが、最近の状況を考えると早期にクリアされそうな予感がする。
Diffusionモデルは絵を生成している?複製している?
- Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models [53.0]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。 フレームワークをCeleb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製にどのように影響するかを議論する。
論文 参考訳(メタデータ) (Thu, 8 Dec 2022 18:59:30 GMT) - 拡散モデルが絵を描いているのか学習データからコピーしているのかを検知するフレームワークの提案。サンプルとしてコピーとみなせそうな例が挙げられている。
- 論文中には「Furthermore, it is highly likely that replication exists that our retrieval method is unable to identify.」との記載もあり、生成モデルがバズった中で言われていた懸念は現実的なリスクのよう。
DiffusionBERT
- DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models [81.8]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。 本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。 非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (Wed, 30 Nov 2022 15:41:24 GMT) - NLPにもDiffusion Model
- リポジトリはHzfinfdu/Diffusion-BERT: Implementation of DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models (github.com)
VectorFusion
- VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.9]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。 近年のテキスト・ツー・3D研究に触発されて,Score Distillation Sampling を用いたキャプションと整合したSVGを学習した。 実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文 参考訳(メタデータ) (Mon, 21 Nov 2022 10:04:27 GMT) - Text-to-SVGの研究、Diffusion Modelは本当に強力。
- プロジェクトサイトはVectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models (ajayj.com)
Versatile Diffusion
- Versatile Diffusion: Text, Images and Variations All in One Diffusion Model [79.5]
近年の拡散モデルの発展は、多くの世代における重要なマイルストーンとなっている。 既存の単一フロー拡散パイプラインを Versatile Diffusion (VD) と呼ばれるマルチフローネットワークに拡張する。 VDは1つの統一されたモデルで、テキスト・ツー・イメージ・トゥ・テキスト、イメージ・ヴァレージョン、およびテキスト・ヴァレージョンを処理する。
論文 参考訳(メタデータ) (Tue, 15 Nov 2022 17:44:05 GMT) - text-to-image, image-to-text, image-variation, text-variationを取り扱え宇モデルの提案
- リポジトリはSHI-Labs/Versatile-Diffusion: Versatile Diffusion: Text, Images and Variations All in One Diffusion Model, 2022 (github.com)
DiffusionDB
- DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models [14.3]
DiffusionDBは、最初の大規模なテキストと画像のプロンプトデータセットである。 データセット内のプロンプトを分析し、これらのプロンプトの重要な特性について議論する。 この人間の活動するデータセットの、前例のないスケールと多様性は、エキサイティングな研究機会を提供する。
論文 参考訳(メタデータ) (Wed, 26 Oct 2022 17:54:20 GMT)- 200万件のプロンプト・画像のペア。Stable Diffusion discord serverから取得されたとのこと。ライセンスはCC-0。
- 画像生成のプロンプトは(生成モデルが用いたデータに共通部分が多いこともあって)使いまわせる要素がある。傾向分析には有用そう。
- プロジェクトサイトはHome – DiffusionDB (poloclub.github.io)
- 200万件のプロンプト・画像のペア。Stable Diffusion discord serverから取得されたとのこと。ライセンスはCC-0。
Human Motion Diffusion Model
- Human Motion Diffusion Model [35.1]
運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。 我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (Mon, 3 Oct 2022 09:17:41 GMT)- モーション生成においてもDiffusionモデルが有効という報告
- リポジトリはHuman Motion Diffusion Model (guytevet.github.io)