ERNIE-ViLG 2.0

  • ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [41.1]
    ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。 シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。 画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Thu, 27 Oct 2022 08:21:35 GMT)
    • ERNIE-ViLGの更新版、MS-COCO with zero-shot FID でSoTAを主張
    • 論文中の画像のレベルも上がっており、非常に競争の激しい分野という感想

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です