単純にテキストから画像を生成するのではなく、その構図等を制御可能な研究報告が出ていた。何ができているかはサンプルを見るのが早い。欲しい絵があった場合、その描き方が根底から変わりそうな…
- Adding Conditional Control to Text-to-Image Diffusion Models [43.8]
本研究では,事前学習した大規模拡散モデルを制御するニューラルネットワーク構造であるControlNetを提案する。 ControlNetは、エンドツーエンドでタスク固有の条件を学習し、トレーニングデータセットが小さい場合でも、学習は堅牢である。
論文 参考訳(メタデータ) (Fri, 10 Feb 2023 23:12:37 GMT) - リポジトリはGitHub – lllyasviel/ControlNet: Let us control diffusion models
- MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.6]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。 高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (Thu, 16 Feb 2023 06:28:29 GMT) - 制御可能な(マスクごとにテキストを設定することなどが可能な)画像生成モデルの提案
- リポジトリはMultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation