PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models
PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models [10.3] 画像を生成する前に空間配置条件を事前に計画できる統合レイアウト計画と画像生成モデルPlanGenを提案する。 PlanGenは、ローカルキャプションとバウンディングボックス座標の特別なエンコーディングを必要とせずに、レイアウト条件をコンテキストとしてモデルに統合する。 さらに、よく設計されたモデリングのおかげで、PlanGenはレイアウト誘導の画像操作にシームレスに拡張できる。 論文参考訳(メタデータ) (Thu, 13 Mar 2025 07:37:09 GMT)
画像生成の前にレイアウト計画可能なモデルの提案。コンテキストとしてレイアウトを受け取ることが可能「PlanGen can complete layout planning and layout-to-image generation in a unified model. Just like thinking about what object each area should be before generating an image, such an explicit planning process allows the model to enjoy more powerful image generation capabilities.」。