- Muse: Text-To-Image Generation via Masked Generative Transformers [81.2]
Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。 Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。 Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
論文 参考訳(メタデータ) (Mon, 2 Jan 2023 14:43:38 GMT) - mask-based trainingを用いたテキスト-画像モデルの提案。優れた(ImagenやDALL-E 2より上の)性能を発揮し、最近流行りのDiffusionモデルよりも高速とのこと。
- Muse: Text-To-Image Generation via Masked Generative Transformers (muse-model.github.io)