コンテンツへスキップ
- PlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models [10.3]
画像を生成する前に空間配置条件を事前に計画できる統合レイアウト計画と画像生成モデルPlanGenを提案する。 PlanGenは、ローカルキャプションとバウンディングボックス座標の特別なエンコーディングを必要とせずに、レイアウト条件をコンテキストとしてモデルに統合する。 さらに、よく設計されたモデリングのおかげで、PlanGenはレイアウト誘導の画像操作にシームレスに拡張できる。
論文 参考訳(メタデータ) (Thu, 13 Mar 2025 07:37:09 GMT)
- 画像生成の前にレイアウト計画可能なモデルの提案。コンテキストとしてレイアウトを受け取ることが可能「PlanGen can complete layout planning and layout-to-image generation in a unified model. Just like thinking about what object each area should be before generating an image, such an explicit planning process allows the model to enjoy more powerful image generation capabilities.」。
- リポジトリはPlanGen: Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Language Models
- Biomedical Foundation Model: A Survey [84.3]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。 これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。 本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文 参考訳(メタデータ) (Mon, 03 Mar 2025 22:42:00 GMT)
- 生物学、医学分野の基盤モデルのサーベイ、主な対象は「computational biology, drug development, clinical informatics, medical imaging, and public health」