VectorFusion

  • VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.9]
    画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。 近年のテキスト・ツー・3D研究に触発されて,Score Distillation Sampling を用いたキャプションと整合したSVGを学習した。 実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
    論文  参考訳(メタデータ)   (Mon, 21 Nov 2022 10:04:27 GMT)
  • Text-to-SVGの研究、Diffusion Modelは本当に強力。
  • プロジェクトサイトはVectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models (ajayj.com)

Versatile Diffusion

  • Versatile Diffusion: Text, Images and Variations All in One Diffusion Model [79.5]
    近年の拡散モデルの発展は、多くの世代における重要なマイルストーンとなっている。 既存の単一フロー拡散パイプラインを Versatile Diffusion (VD) と呼ばれるマルチフローネットワークに拡張する。 VDは1つの統一されたモデルで、テキスト・ツー・イメージ・トゥ・テキスト、イメージ・ヴァレージョン、およびテキスト・ヴァレージョンを処理する。
    論文  参考訳(メタデータ)   (Tue, 15 Nov 2022 17:44:05 GMT)
  • text-to-image, image-to-text, image-variation, text-variationを取り扱え宇モデルの提案
  • リポジトリはSHI-Labs/Versatile-Diffusion: Versatile Diffusion: Text, Images and Variations All in One Diffusion Model, 2022 (github.com)

InstructPix2Pix

  • InstructPix2Pix: Learning to Follow Image Editing Instructions [103.8]
    人間の指示から画像を編集する手法を提案する。 入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。 入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 18:58:43 GMT)
  • 指示によって画像を編集するモデルの提案。今までも様々な手法が提案されてきたが実用的なレベルになってきていると感じる
  • プロジェクトサイトはInstructPix2Pix (timothybrooks.com)、作例が凄い

UPaintingとeDiffi

  • UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance [40.5]
    我々は,シンプルかつ複雑なシーン画像生成を統一する,シンプルで効果的なアプローチ,すなわちUPaintingを提案する。 UPaintingは、事前訓練された画像テキストマッチングモデルからテキスト条件拡散モデルにクロスモーダルガイダンスを統合する。 UPaintingは、単純なシーンと複雑なシーンの両方において、キャプションの類似性と画像の忠実さという点で、他のモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Mon, 31 Oct 2022 02:33:17 GMT)
  • Baiduによる品質の高い画像生成モデルの提案、MS-COCO with zero-shot FID ではSoTAとはいかないまでも良いスコア。本当に競争が激しい分野。。。
  • eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.5]
    大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。 異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
    論文  参考訳(メタデータ)   (Wed, 2 Nov 2022 17:43:04 GMT)
  • こちらはNVIDIAの成果
  • プロジェクトサイトはeDiffi: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers (deepimagination.cc)

ERNIE-ViLG 2.0

  • ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [41.1]
    ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。 シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。 画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Thu, 27 Oct 2022 08:21:35 GMT)
    • ERNIE-ViLGの更新版、MS-COCO with zero-shot FID でSoTAを主張
    • 論文中の画像のレベルも上がっており、非常に競争の激しい分野という感想

LAION-5B

  • LAION-5B: An open large-scale dataset for training next generation image-text models [16.1]
    我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。 このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。 また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
    論文  参考訳(メタデータ)   (Sun, 16 Oct 2022 00:08:18 GMT)

DreamFusion

  • DreamFusion: Text-to-3D using 2D Diffusion [52.5]
    テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。 本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。 提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 17:50:40 GMT)

Diffusion Modelのサーベイ

  • A Survey on Generative Diffusion Model [75.5]
    拡散モデルには、遅い生成過程の自然な欠点があり、多くの強化された研究につながっている。 本稿では,学習スケジュール,トレーニング不要サンプリング,混合モデリング,スコア・アンド・拡散統一といった,拡散モデルを高速化する高度な手法を提案する。 拡散モデルを持つアプリケーションは、コンピュータビジョン、シーケンスモデリング、オーディオ、科学のためのAIを含む。
    論文  参考訳(メタデータ)   (Tue, 6 Sep 2022 16:56:21 GMT)
    • 最近話題のStable Diffusionなどに関連する生成系拡散モデルのサーベイ
  • Diffusion Models: A Comprehensive Survey of Methods and Applications [6.0]
    拡散モデル(英: Diffusion model)は、密度理論の確立を伴う様々なタスクにおいて印象的な結果を示す深層生成モデルのクラスである。 近年,拡散モデルの性能向上への熱意が高まっている。
    論文  参考訳(メタデータ)   (Fri, 2 Sep 2022 02:59:10 GMT)

DreamBooth: 画像生成モデルのパーソナライズ

  • DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
    テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。 トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。 次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
    論文  参考訳(メタデータ)   (Thu, 25 Aug 2022 17:45:49 GMT)
    • 少量のデータを用いて画像生成モデルに新たな画像(例えば自分のペットなど)を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
    • プロジェクトサイトはDreamBooth

ARMANI: pARt-level garMent-text Alignment for uNIfied cross-modal fashion design

  • ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
    クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
    論文  参考訳(メタデータ)   (Thu, 11 Aug 2022 03:44:02 GMT)
    • (一部の)画像、スケッチ、テキスト入力などからファッション画像(服全体など)を生成する研究。柄の一部+テキスト指示で服の画像全体を作ることなどが可能とのこと。
      • 内容とは関係ないが、かなり無理がある略称
    • リポジトリはGitHub – Harvey594/ARMANI