InstructPix2Pix

  • InstructPix2Pix: Learning to Follow Image Editing Instructions [103.8]
    人間の指示から画像を編集する手法を提案する。 入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。 入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
    論文  参考訳(メタデータ)   (Thu, 17 Nov 2022 18:58:43 GMT)
  • 指示によって画像を編集するモデルの提案。今までも様々な手法が提案されてきたが実用的なレベルになってきていると感じる
  • プロジェクトサイトはInstructPix2Pix (timothybrooks.com)、作例が凄い

UPaintingとeDiffi

  • UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance [40.5]
    我々は,シンプルかつ複雑なシーン画像生成を統一する,シンプルで効果的なアプローチ,すなわちUPaintingを提案する。 UPaintingは、事前訓練された画像テキストマッチングモデルからテキスト条件拡散モデルにクロスモーダルガイダンスを統合する。 UPaintingは、単純なシーンと複雑なシーンの両方において、キャプションの類似性と画像の忠実さという点で、他のモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Mon, 31 Oct 2022 02:33:17 GMT)
  • Baiduによる品質の高い画像生成モデルの提案、MS-COCO with zero-shot FID ではSoTAとはいかないまでも良いスコア。本当に競争が激しい分野。。。
  • eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.5]
    大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。 異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
    論文  参考訳(メタデータ)   (Wed, 2 Nov 2022 17:43:04 GMT)
  • こちらはNVIDIAの成果
  • プロジェクトサイトはeDiffi: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers (deepimagination.cc)

ERNIE-ViLG 2.0

  • ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [41.1]
    ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。 シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。 画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Thu, 27 Oct 2022 08:21:35 GMT)
    • ERNIE-ViLGの更新版、MS-COCO with zero-shot FID でSoTAを主張
    • 論文中の画像のレベルも上がっており、非常に競争の激しい分野という感想

LAION-5B

  • LAION-5B: An open large-scale dataset for training next generation image-text models [16.1]
    我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。 このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。 また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
    論文  参考訳(メタデータ)   (Sun, 16 Oct 2022 00:08:18 GMT)

DreamFusion

  • DreamFusion: Text-to-3D using 2D Diffusion [52.5]
    テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。 本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。 提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 17:50:40 GMT)

Diffusion Modelのサーベイ

  • A Survey on Generative Diffusion Model [75.5]
    拡散モデルには、遅い生成過程の自然な欠点があり、多くの強化された研究につながっている。 本稿では,学習スケジュール,トレーニング不要サンプリング,混合モデリング,スコア・アンド・拡散統一といった,拡散モデルを高速化する高度な手法を提案する。 拡散モデルを持つアプリケーションは、コンピュータビジョン、シーケンスモデリング、オーディオ、科学のためのAIを含む。
    論文  参考訳(メタデータ)   (Tue, 6 Sep 2022 16:56:21 GMT)
    • 最近話題のStable Diffusionなどに関連する生成系拡散モデルのサーベイ
  • Diffusion Models: A Comprehensive Survey of Methods and Applications [6.0]
    拡散モデル(英: Diffusion model)は、密度理論の確立を伴う様々なタスクにおいて印象的な結果を示す深層生成モデルのクラスである。 近年,拡散モデルの性能向上への熱意が高まっている。
    論文  参考訳(メタデータ)   (Fri, 2 Sep 2022 02:59:10 GMT)

DreamBooth: 画像生成モデルのパーソナライズ

  • DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
    テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。 トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。 次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
    論文  参考訳(メタデータ)   (Thu, 25 Aug 2022 17:45:49 GMT)
    • 少量のデータを用いて画像生成モデルに新たな画像(例えば自分のペットなど)を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
    • プロジェクトサイトはDreamBooth

ARMANI: pARt-level garMent-text Alignment for uNIfied cross-modal fashion design

  • ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
    クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
    論文  参考訳(メタデータ)   (Thu, 11 Aug 2022 03:44:02 GMT)
    • (一部の)画像、スケッチ、テキスト入力などからファッション画像(服全体など)を生成する研究。柄の一部+テキスト指示で服の画像全体を作ることなどが可能とのこと。
      • 内容とは関係ないが、かなり無理がある略称
    • リポジトリはGitHub – Harvey594/ARMANI

ソース画像+テキスト指示による新たな画像の生成

  • An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion [60.1]
    テキスト・ツー・イメージモデルは、自然言語による創造をガイドする前例のない自由を提供する。 ここでは、そのような創造的な自由を可能にするシンプルなアプローチを提示します。 一つの単語の埋め込みが、ユニークで多様な概念を捉えるのに十分であることを示す。
    論文  参考訳(メタデータ)   (Tue, 2 Aug 2022 17:50:36 GMT)

Parti: Pathways Autoregressive Text-to-Image

  • Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
    Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 22 Jun 2022 01:11:29 GMT)
    • DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
    • プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
      • 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。(とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…)