ERNIE-ViLG 2.0 – arXiv最新論文の紹介

ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [41.1]
ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 08:21:35 GMT)
- ERNIE-ViLGの更新版、MS-COCO with zero-shot FID でSoTAを主張
- 論文中の画像のレベルも上がっており、非常に競争の激しい分野という感想

コメントを残す

コメントを残す コメントをキャンセル