Text2Human: テキストからの人の画像生成

Imagen: Googleの画像生成AI

  • Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.2]
    Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。 テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
    論文  参考訳(メタデータ)   (Mon, 23 May 2022 17:42:53 GMT)
    • DALL-E 2よりも高性能と主張するGoogleの画像生成モデル。テキストエンコーダとしてT5-XXLを用いテキストをエンコード、Diffusion Modelで画像生成を行い、super resolutionをしていくというパイプライン。
    • プロジェクトサイトはImagen: Text-to-Image Diffusion Models (gweb-research-imagen.appspot.com) (論文ではhttps://imagen.research.google/)

NTED(Neural Texture Extraction and Distribution): 制御可能な人物画像生成

  • Neural Texture Extraction and Distribution for Controllable Person Image Synthesis [46.6]
    身体のポーズや外観を明示的に制御した参照画像から人間を再レンダリングすることを目的とした、制御可能な人物画像合成タスクに対処する。 人物画像が高度に構造化されていることを観察し、参照画像のセマンティックエンティティを抽出し、分散することにより、所望の画像を生成することを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 13 Apr 2022 03:51:07 GMT)

DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

  • 非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸(写実性、テキストとの類似性、多様性)でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
    • オブジェクトへの属性反映はGLIDEの方が優れている(色やサイズ、位置関係の反映がイマイチ)
    • テキスト生成が弱い(画像中にテキストを入れる場合正しい出力にならないことがある)
    • 複雑な画像を生成しにくい(「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある)
  • 技術的にはCLIP による分散表現とdiffusion model(GLIDEベース)が活用されているとのこと。
  • サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)

Make-A-Scene: 制御可能なテキストtoイメージ生成

  • Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.7]
    近年のテキスト・ツー・イメージ生成手法は生成した画像の忠実度とテキスト関連性を漸進的に改善しているが、いくつかの重要なギャップは未解決のままである。 これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。 (i)シーン形式でテキストを補完する簡単な制御機構を可能にすること。 (ii)主要画像領域(顔及び突出物)にドメイン固有の知識を取り入れて、トークン化プロセスを大幅に改善する要素を導入すること。 (iii)変圧器の用途に分類器フリーのガイダンスを適用すること。 本モデルでは,512×512ピクセルの解像度で高忠実度画像を生成する能力を解放し,視覚的品質を著しく向上する。
    論文  参考訳(メタデータ)   (Thu, 24 Mar 2022 15:44:50 GMT)
    • テキストからの画像生成時にセグメンテーション情報を与えることで生成される結果を制御可能なモデルの提案。どのようなものかはThe Little Red Boat Story (Make-A-Scene) – YouTubeの2:40以降を見るのが分かりやすい。

Kubric:データセットジェネレータ

ユーザの入力に基づいた画像生成のサーベイ

  • Deep Image Synthesis from Intuitive User Input: A Review and Perspectives [23.0]
    コンピュータグラフィックス、アート、デザインの多くの応用において、ユーザはテキスト、スケッチ、ストローク、グラフ、レイアウトといった直感的な非画像入力を提供し、入力内容に準拠したフォトリアリスティックな画像を自動的に生成するコンピュータシステムを持つことが望ましい。 GAN(Generative Adversarial Network)やVAE(Variational autoencoders )、フローベース手法といった深層生成モデルの最近の進歩は、より強力で汎用的な画像生成タスクを可能にしている。 本稿では,直感的なユーザ入力による画像合成,入力の汎用性の向上,画像生成手法,ベンチマークデータセット,評価指標について概説する。
    論文  参考訳(メタデータ)   (Fri, 9 Jul 2021 06:31:47 GMT)
    • 画像生成に関するサーベイ。流行の手法、データセット、評価指標など一通りの内容が記載されていて勉強になる。