Muse: Text-To-Image Generation via Masked Generative Transformers

  • Muse: Text-To-Image Generation via Masked Generative Transformers [81.2]
    Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。 Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。 Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
    論文  参考訳(メタデータ)   (Mon, 2 Jan 2023 14:43:38 GMT)
  • mask-based trainingを用いたテキスト-画像モデルの提案。優れた(ImagenやDALL-E 2より上の)性能を発揮し、最近流行りのDiffusionモデルよりも高速とのこと。
  • Muse: Text-To-Image Generation via Masked Generative Transformers (muse-model.github.io)