- Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.7]
近年のテキスト・ツー・イメージ生成手法は生成した画像の忠実度とテキスト関連性を漸進的に改善しているが、いくつかの重要なギャップは未解決のままである。 これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。 (i)シーン形式でテキストを補完する簡単な制御機構を可能にすること。 (ii)主要画像領域(顔及び突出物)にドメイン固有の知識を取り入れて、トークン化プロセスを大幅に改善する要素を導入すること。 (iii)変圧器の用途に分類器フリーのガイダンスを適用すること。 本モデルでは,512×512ピクセルの解像度で高忠実度画像を生成する能力を解放し,視覚的品質を著しく向上する。
論文 参考訳(メタデータ) (Thu, 24 Mar 2022 15:44:50 GMT)- テキストからの画像生成時にセグメンテーション情報を与えることで生成される結果を制御可能なモデルの提案。どのようなものかはThe Little Red Boat Story (Make-A-Scene) – YouTubeの2:40以降を見るのが分かりやすい。