UPaintingとeDiffi

  • UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance [40.5]
    我々は,シンプルかつ複雑なシーン画像生成を統一する,シンプルで効果的なアプローチ,すなわちUPaintingを提案する。 UPaintingは、事前訓練された画像テキストマッチングモデルからテキスト条件拡散モデルにクロスモーダルガイダンスを統合する。 UPaintingは、単純なシーンと複雑なシーンの両方において、キャプションの類似性と画像の忠実さという点で、他のモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Mon, 31 Oct 2022 02:33:17 GMT)
  • Baiduによる品質の高い画像生成モデルの提案、MS-COCO with zero-shot FID ではSoTAとはいかないまでも良いスコア。本当に競争が激しい分野。。。
  • eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.5]
    大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。 異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
    論文  参考訳(メタデータ)   (Wed, 2 Nov 2022 17:43:04 GMT)
  • こちらはNVIDIAの成果
  • プロジェクトサイトはeDiffi: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers (deepimagination.cc)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です