Scaling up GANs for Text-to-Image Synthesis

  • Scaling up GANs for Text-to-Image Synthesis [59.5]
    テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。 技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。 DALL-E 2では、自動回帰モデルと拡散モデルが大規模生成モデルの新たな標準となった。 我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介する。
    論文  参考訳(メタデータ)   (Thu, 9 Mar 2023 18:59:47 GMT)
  • Stable Diffusionを超える(低いFID)性能のGANアーキテクチャのモデル。プロジェクトサイトを見る限り品質が高く、そして動作が高速。
  • リポジトリはGigaGAN: Scaling up GANs for Text-to-Image Synthesis (mingukkang.github.io)

LinkGAN

Parti: Pathways Autoregressive Text-to-Image

  • Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
    Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
    論文  参考訳(メタデータ)   (Wed, 22 Jun 2022 01:11:29 GMT)
    • DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
    • プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
      • 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。(とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…)

GAN I hire you?

  • “GAN I hire you?” — A System for Personalized Virtual Job Interview Training [49.2]
    本研究では,GAN(Generative Adversarial Network)に基づく対話型面接訓練システムを開発した。 その結果,GANをベースとした行動フィードバックが有用であることが示唆された。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 8 Jun 2022 13:03:39 GMT)
    • GANを用いた対話型面接トレーニングシステム、フィードバックを生成してくれるとのこと。
    • 取り組みは面白いが、評価方法とかこれで大丈夫なのだろうか。

VQGAN & Transformerによるビデオ生成

  • Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.6]
    本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。 評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。 また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Thu, 7 Apr 2022 17:59:02 GMT)

SLOGAN: GANを用いた手書き画像の合成

  • SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text [35.8]
    本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。 我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。 本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 23 Feb 2022 12:13:27 GMT)
    • 特定の手書きスタイルを表現するベクトルを抽出、未知語に対してもそれっぽいテキスト画像を合成できるという報告。
      • 面白い結果であると同時に偽造とかに使えそうで怖い。。。

MISE(Multimodal Image Synthesis and Editing)のサーベイ

  • Multimodal Image Synthesis and Editing: A Survey [41.6]
    マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。 明確な手がかりを提供する従来のビジュアルガイダンスとは異なり、マルチモーダルガイダンスは画像合成と編集において直感的で柔軟な手段を提供する。 本稿では、GAN(Generative Adversarial Networks)、GAN Inversion、Transformer、NeRFやDiffusionモデルなどを含む詳細なフレームワークを用いたマルチモーダル画像合成と編集手法について述べる。
    論文  参考訳(メタデータ)  参考訳(全文)  (Mon, 27 Dec 2021 10:00:16 GMT)

JoJoGAN: ワンショットな画像スタイル変換

  • JoJoGAN: One Shot Face Stylization [6.0]
    本研究は,細部を正確に把握したワンショット画像スタイリングを実現することを目的としている。 GANインバージョンと事前学習したStyleGANのファインチューンを用いて,参照スタイルの画像から実データを近似した。 次に、StyleGANを一般化して、学習したスタイルを他のすべての画像に適用できるように促します。
    論文  参考訳(メタデータ)   (Wed, 22 Dec 2021 03:13:16 GMT)

ClimateGAN: GANを用いた洪水画像の作成

  • ClimateGAN: Raising Climate Change Awareness by Generating Images of Floods [89.6]
    実画像上でのリアルな洪水をシミュレートする手法を提案する。 本研究では、教師なし領域適応と条件付き画像生成のためのシミュレーションデータと実データの両方を活用するモデルであるClimateGANを提案する。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 6 Oct 2021 15:54:57 GMT)
    • GANを用いて災害時の画像を作ることで防災に役立てようという研究。データとして実世界の画像(被災画像を集めてから対応する平常時の画像を集める)、シミュレーション環境で作成した画像(Unity3D内で洪水相当の画像を作成)を併用している。やりたい事から構築までの流れが具体的・実践的でありがたい論文。

Talk-to-Edit: 対話による顔編集

  • Talk-to-Edit: Fine-Grained Facial Editing via Dialog [79.9]
    Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。 我々の重要な洞察は、GANラテント空間における連続的な「セマンティックフィールド」をモデル化することである。 本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
    論文  参考訳(メタデータ)   (Thu, 9 Sep 2021 17:17:59 GMT)
    • 自然なやりとりによって(例えば「もう少し笑って」と入力)顔画像を編集するフレームワークを提案、より連続的に変化させられるモデルを構築できたとのこと。システム実現のため自然言語と画像の組み合わせであるCelebA-Dialogというデータセットを作成、公開している。
    • プロジェクトサイトはhttps://www.mmlab-ntu.com/project/talkedit/、画像を見るとどのようなものかよく分かる。リポジトリはhttps://github.com/yumingj/Talk-to-Edit、Colabでモデルを試すことも可能でとても面白い。