Parti: Pathways Autoregressive Text-to-Image

  • Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
    Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 22 Jun 2022 01:11:29 GMT)
    • DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
    • プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
      • 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。(とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です