masked modeling – arXiv最新論文の紹介

Muse: Text-To-Image Generation via Masked Generative Transformers [81.2]
Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。 Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。 Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
論文参考訳（メタデータ） (Mon, 2 Jan 2023 14:43:38 GMT)
mask-based trainingを用いたテキスト-画像モデルの提案。優れた（ImagenやDALL-E 2より上の）性能を発揮し、最近流行りのDiffusionモデルよりも高速とのこと。
Muse: Text-To-Image Generation via Masked Generative Transformers (muse-model.github.io)