- 非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸(写実性、テキストとの類似性、多様性)でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
- オブジェクトへの属性反映はGLIDEの方が優れている(色やサイズ、位置関係の反映がイマイチ)
- テキスト生成が弱い(画像中にテキストを入れる場合正しい出力にならないことがある)
- 複雑な画像を生成しにくい(「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある)
- 技術的にはCLIP による分散表現とdiffusion model(GLIDEベース)が活用されているとのこと。
- サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)