GAN – arXiv最新論文の紹介

Scaling up GANs for Text-to-Image Synthesis

Scaling up GANs for Text-to-Image Synthesis [59.5]
テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。 DALL-E 2では、自動回帰モデルと拡散モデルが大規模生成モデルの新たな標準となった。我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介する。
論文参考訳（メタデータ） (Thu, 9 Mar 2023 18:59:47 GMT)
Stable Diffusionを超える（低いFID）性能のGANアーキテクチャのモデル。プロジェクトサイトを見る限り品質が高く、そして動作が高速。
リポジトリはGigaGAN: Scaling up GANs for Text-to-Image Synthesis (mingukkang.github.io)

LinkGAN

LinkGAN: Linking GAN Latents to Pixels for Controllable Image Synthesis [63.6]
この研究は、GANトレーニングのための使い易い正規化器を示し、潜在空間のいくつかの軸を画像領域や意味圏に明示的にリンクするのに役立つ。実験の結果,LinkGANと呼ばれる正則化器の4つの魅力特性が確認された。
論文参考訳（メタデータ） (Wed, 11 Jan 2023 17:56:36 GMT)
任意の領域のみを対象とした生成ができる手法の提案
プロジェクトサイトはLinkGAN: Linking GAN Latents to Pixels for Controllable Image Synthesis (zhujiapeng.github.io)

Parti: Pathways Autoregressive Text-to-Image

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (Wed, 22 Jun 2022 01:11:29 GMT)
- DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
- プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
  - 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。（とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…）

GAN I hire you?

“GAN I hire you?” — A System for Personalized Virtual Job Interview Training [49.2]
本研究では,GAN(Generative Adversarial Network)に基づく対話型面接訓練システムを開発した。その結果,GANをベースとした行動フィードバックが有用であることが示唆された。
論文参考訳（メタデータ）参考訳（全文） (Wed, 8 Jun 2022 13:03:39 GMT)
- GANを用いた対話型面接トレーニングシステム、フィードバックを生成してくれるとのこと。
- 取り組みは面白いが、評価方法とかこれで大丈夫なのだろうか。

VQGAN & Transformerによるビデオ生成

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.6]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文参考訳（メタデータ）参考訳（全文） (Thu, 7 Apr 2022 17:59:02 GMT)
- 長編ビデオの合成。プロジェクトサイトはLong Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer (songweige.github.io)

SLOGAN: GANを用いた手書き画像の合成

SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text [35.8]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文参考訳（メタデータ）参考訳（全文） (Wed, 23 Feb 2022 12:13:27 GMT)
- 特定の手書きスタイルを表現するベクトルを抽出、未知語に対してもそれっぽいテキスト画像を合成できるという報告。
  - 面白い結果であると同時に偽造とかに使えそうで怖い。。。

MISE(Multimodal Image Synthesis and Editing)のサーベイ

Multimodal Image Synthesis and Editing: A Survey [41.6]
マルチモーダル画像合成と編集は近年ホットな研究テーマになっている。明確な手がかりを提供する従来のビジュアルガイダンスとは異なり、マルチモーダルガイダンスは画像合成と編集において直感的で柔軟な手段を提供する。本稿では、GAN(Generative Adversarial Networks)、GAN Inversion、Transformer、NeRFやDiffusionモデルなどを含む詳細なフレームワークを用いたマルチモーダル画像合成と編集手法について述べる。
論文参考訳（メタデータ）参考訳（全文） (Mon, 27 Dec 2021 10:00:16 GMT)
- セマンティックマップやテキスト、音声などを手掛かりとしたマルチモーダルな画像生成、編集のサーベイ。タスク、有力手法、データセット、評価とこの分野を概観できる。
  - サーベイ対象に12月発表のFugu-MT 論文翻訳(概要): CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields (fugumt.com)が入っているが、どのタイミングで編集したんだろう。。。
- プロジェクトサイトはGitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey [Preprint]

JoJoGAN: ワンショットな画像スタイル変換

JoJoGAN: One Shot Face Stylization [6.0]
本研究は,細部を正確に把握したワンショット画像スタイリングを実現することを目的としている。 GANインバージョンと事前学習したStyleGANのファインチューンを用いて,参照スタイルの画像から実データを近似した。次に、StyleGANを一般化して、学習したスタイルを他のすべての画像に適用できるように促します。
論文参考訳（メタデータ） (Wed, 22 Dec 2021 03:13:16 GMT)
- ワンショットでのスタイル変換。論文の最初の画像でやっていることはだいたい把握可能（インパクト大）。
  - Hugging Face Spaceでサクッとお試しできるは便利
- リポジトリはGitHub – mchong6/JoJoGAN: Official PyTorch repo for JoJoGAN: One Shot Face Stylization、Hugging Faceでお試しができるJoJoGAN – a Hugging Face Space by akhaliq

ClimateGAN: GANを用いた洪水画像の作成

ClimateGAN: Raising Climate Change Awareness by Generating Images of Floods [89.6]
実画像上でのリアルな洪水をシミュレートする手法を提案する。本研究では、教師なし領域適応と条件付き画像生成のためのシミュレーションデータと実データの両方を活用するモデルであるClimateGANを提案する。
論文参考訳（メタデータ）参考訳（全文） (Wed, 6 Oct 2021 15:54:57 GMT)
- GANを用いて災害時の画像を作ることで防災に役立てようという研究。データとして実世界の画像（被災画像を集めてから対応する平常時の画像を集める）、シミュレーション環境で作成した画像（Unity3D内で洪水相当の画像を作成）を併用している。やりたい事から構築までの流れが具体的・実践的でありがたい論文。

Talk-to-Edit: 対話による顔編集

Talk-to-Edit: Fine-Grained Facial Editing via Dialog [79.9]
Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。我々の重要な洞察は、GANラテント空間における連続的な「セマンティックフィールド」をモデル化することである。本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
論文参考訳（メタデータ） (Thu, 9 Sep 2021 17:17:59 GMT)
- 自然なやりとりによって（例えば「もう少し笑って」と入力）顔画像を編集するフレームワークを提案、より連続的に変化させられるモデルを構築できたとのこと。システム実現のため自然言語と画像の組み合わせであるCelebA-Dialogというデータセットを作成、公開している。
- プロジェクトサイトはhttps://www.mmlab-ntu.com/project/talkedit/、画像を見るとどのようなものかよく分かる。リポジトリはhttps://github.com/yumingj/Talk-to-Edit、Colabでモデルを試すことも可能でとても面白い。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31