GAN – ページ 2 – arXiv最新論文の紹介

GAN Sketching: ユーザのスケッチに適合した画像生成GAN作成

Sketch Your Own GAN [36.8]
本稿では1つ以上のスケッチでGANを書き換える手法であるGAN Sketchingを提案する。我々は、ドメイン間の敵対的損失を通じて、ユーザスケッチにマッチするようにモデルの出力を奨励する。提案手法は,写実性や多様性を保ちながら,スケッチで指定した形状やポーズに適合するGANを成形できることを示した。
論文参考訳（メタデータ）参考訳（全文） (Thu, 5 Aug 2021 17:59:42 GMT)
- 1枚程度のスケッチからそれに適合するようにモデルのweightを変更しGANモデル自体を生成するという論文。複雑なポーズの指定や独特なスタイルでのスケッチではうまく動かないという失敗事例も興味深い結果。プロジェクトサイトの独特なスケッチをみて何となく納得した。
- プロジェクトサイトはhttps://peterwang512.github.io/GANSketching/、リポジトリはhttps://github.com/peterwang512/GANSketching（現時点で公開予定）
  - プロジェクトサイトにはたまに怖い画像がある。。。

I2V-GAN: Unpaired Infrared-to-Visible Video Translation [14.2]
本稿では,赤外線映像の可視光映像を生成するために,赤外線可視(I2V)ビデオ翻訳方式I2V-GANを提案する。本モデルでは,1)実物に類似した合成フレームを生成するための対角的制約,2)効果的なコンテンツ変換のための知覚的損失に対する循環的整合性,3)ドメイン内およびドメイン内における相似性制約,の3つの制約を重んじる。実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。
論文参考訳（メタデータ） (Wed, 4 Aug 2021 05:24:30 GMT)
赤外線の映像から可視光の映像に変換するモデルの提案。赤外線可視光変換ネットワークI2V-GANは優れた性能を出したとのこと。本件に使用した12 CLIP、24kフレームのデータセットもIRVIという名前で公開されている。
コードとデータセットはhttps://github.com/BIT-DA/I2V-GANで公開されている。

Deep Image Synthesis from Intuitive User Input: A Review and Perspectives [23.0]
コンピュータグラフィックス、アート、デザインの多くの応用において、ユーザはテキスト、スケッチ、ストローク、グラフ、レイアウトといった直感的な非画像入力を提供し、入力内容に準拠したフォトリアリスティックな画像を自動的に生成するコンピュータシステムを持つことが望ましい。 GAN(Generative Adversarial Network)やVAE(Variational autoencoders )、フローベース手法といった深層生成モデルの最近の進歩は、より強力で汎用的な画像生成タスクを可能にしている。本稿では,直感的なユーザ入力による画像合成,入力の汎用性の向上,画像生成手法,ベンチマークデータセット,評価指標について概説する。
論文参考訳（メタデータ） (Fri, 9 Jul 2021 06:31:47 GMT)
- 画像生成に関するサーベイ。流行の手法、データセット、評価指標など一通りの内容が記載されていて勉強になる。

VideoGPT: Video Generation using VQ-VAE and Transformers [75.2]
VideoGPTは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。 VideoGPTはVQ-VAEを使用し3D畳み込みと軸方向の自己アテンションを用いて生のビデオの離散的な潜伏表現のサンプルを学習する。我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
論文参考訳（メタデータ）参考訳（全文） (Tue, 20 Apr 2021 17:58:03 GMT)
- 映像データの自動生成、GANに迫る結果が出せたとのこと。
- https://wilson1yan.github.io/videogpt/index.html のデモが面白い。