- Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.2]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。 テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (Mon, 23 May 2022 17:42:53 GMT)- DALL-E 2よりも高性能と主張するGoogleの画像生成モデル。テキストエンコーダとしてT5-XXLを用いテキストをエンコード、Diffusion Modelで画像生成を行い、super resolutionをしていくというパイプライン。
- プロジェクトサイトはImagen: Text-to-Image Diffusion Models (gweb-research-imagen.appspot.com) (論文ではhttps://imagen.research.google/)