- Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (Wed, 22 Jun 2022 01:11:29 GMT)- DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
- プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
- 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。(とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…)