DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸（写実性、テキストとの類似性、多様性）でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
- オブジェクトへの属性反映はGLIDEの方が優れている（色やサイズ、位置関係の反映がイマイチ）
- テキスト生成が弱い（画像中にテキストを入れる場合正しい出力にならないことがある）
- 複雑な画像を生成しにくい（「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある）
技術的にはCLIP による分散表現とdiffusion model（GLIDEベース）が活用されているとのこと。
サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)

コメントを残す

コメントを残す コメントをキャンセル