UniHuman

  • UniHuman: A Unified Model for Editing Human Images in the Wild [52.4]
    実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。 モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。 ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
    論文  参考訳(メタデータ)   (Fri, 22 Dec 2023 05:00:30 GMT)
  • 人間の画像を編集するためのモデルの提案、Adobeがかかわっており、「 we curated 400K high-quality image-text pairs for training and collected 2K human image pairs for out-of-domain testing.」はさすが。

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

  • PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models [15.7]
    PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。 PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
    論文  参考訳(メタデータ)   (Thu, 21 Dec 2023 15:51:12 GMT)
  • 入力画像+テキストからのアニメーション生成。アニメ中の破綻が少ない。
  • リポジトリはPIA: Personalized Image Animator (pi-animator.github.io)、デモもある。

Holistic Evaluation of Text-To-Image Models

LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation

  • LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [112.3]
    レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。 提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
    論文  参考訳(メタデータ)   (Wed, 9 Aug 2023 17:45:04 GMT)
  • LLMを通してテキストからレイアウト情報を推測し、画像生成する手法の提案。
  • プロジェクトサイトはLayoutLLM-T2I

Infinigen 

  • Infinite Photorealistic Worlds using Procedural Generation [135.1]
    インフィニゲン(Infinigen)は、自然界のフォトリアリスティックな3Dシーンのプロシージャジェネレータである。 形状からテクスチャに至るまで、すべての資産はランダム化された数学的ルールによってゼロから生成される。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:20:37 GMT)
  • 美しい3Dシーンのジェネレータ。Deepでぽん的なアプローチではない。Real geometry、OSSと凄いソフトウェア。
  • プロジェクトサイトはHome | Infinigen、リポジトリはGitHub – princeton-vl/infinigen: Infinite Photorealistic Worlds using Procedural Generation

LLMScore

Multimodal Image Synthesis and Editing: A Survey

  • Multimodal Image Synthesis and Editing: A Survey [104.0]
    コンピュータビジョンとディープラーニングの研究において、マルチモーダル情報間の効果的な相互作用と融合が重要な役割を担っている。 マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。 近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。 ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
    論文  参考訳(メタデータ)   (Mon, 24 Apr 2023 12:43:35 GMT)
  • 画像生成・編集に関するサーベイのver4
  • GitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey

Scaling up GANs for Text-to-Image Synthesis

  • Scaling up GANs for Text-to-Image Synthesis [59.5]
    テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。 技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。 DALL-E 2では、自動回帰モデルと拡散モデルが大規模生成モデルの新たな標準となった。 我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介する。
    論文  参考訳(メタデータ)   (Thu, 9 Mar 2023 18:59:47 GMT)
  • Stable Diffusionを超える(低いFID)性能のGANアーキテクチャのモデル。プロジェクトサイトを見る限り品質が高く、そして動作が高速。
  • リポジトリはGigaGAN: Scaling up GANs for Text-to-Image Synthesis (mingukkang.github.io)

Word-As-Image for Semantic Typography

  • Word-As-Image for Semantic Typography [41.4]
    単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。 本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
    論文  参考訳(メタデータ)   (Fri, 3 Mar 2023 09:59:25 GMT)
  • 看板などで使われる単語の一部が絵になっているような画像を作成する手法の提案。プロジェクトサイトの動画が分かりやすい。
  • プロジェクトサイトはWord-As-Image for Semantic Typography (wordasimage.github.io)

ControlNet、MultiDiffusion

単純にテキストから画像を生成するのではなく、その構図等を制御可能な研究報告が出ていた。何ができているかはサンプルを見るのが早い。欲しい絵があった場合、その描き方が根底から変わりそうな…

  • Adding Conditional Control to Text-to-Image Diffusion Models [43.8]
    本研究では,事前学習した大規模拡散モデルを制御するニューラルネットワーク構造であるControlNetを提案する。 ControlNetは、エンドツーエンドでタスク固有の条件を学習し、トレーニングデータセットが小さい場合でも、学習は堅牢である。
    論文  参考訳(メタデータ)   (Fri, 10 Feb 2023 23:12:37 GMT)
  • リポジトリはGitHub – lllyasviel/ControlNet: Let us control diffusion models

  • MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.6]
    MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。 高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
    論文  参考訳(メタデータ)   (Thu, 16 Feb 2023 06:28:29 GMT)
  • 制御可能な(マスクごとにテキストを設定することなどが可能な)画像生成モデルの提案
  • リポジトリはMultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation