画像生成 – ページ 4 – arXiv最新論文の紹介

DreamBooth: 画像生成モデルのパーソナライズ

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文参考訳（メタデータ） (Thu, 25 Aug 2022 17:45:49 GMT)
- 少量のデータを用いて画像生成モデルに新たな画像（例えば自分のペットなど）を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
- プロジェクトサイトはDreamBooth

ARMANI: pARt-level garMent-text Alignment for uNIfied cross-modal fashion design

ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
論文参考訳（メタデータ） (Thu, 11 Aug 2022 03:44:02 GMT)
- （一部の）画像、スケッチ、テキスト入力などからファッション画像（服全体など）を生成する研究。柄の一部＋テキスト指示で服の画像全体を作ることなどが可能とのこと。
  - 内容とは関係ないが、かなり無理がある略称
- リポジトリはGitHub – Harvey594/ARMANI

ソース画像＋テキスト指示による新たな画像の生成

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion [60.1]
テキスト・ツー・イメージモデルは、自然言語による創造をガイドする前例のない自由を提供する。ここでは、そのような創造的な自由を可能にするシンプルなアプローチを提示します。一つの単語の埋め込みが、ユニークで多様な概念を捉えるのに十分であることを示す。
論文参考訳（メタデータ） (Tue, 2 Aug 2022 17:50:36 GMT)
- 数枚の画像をソースとしてテキスト指示により新たな画像を生み出す研究。ソース画像を表す疑似単語を探し、それを用いてテキスト入力による画像生成を行うアプローチ。生成する画像を狙いやすくなる有用そうな研究。
- プロジェクトサイトはAn Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (textual-inversion.github.io)

Parti: Pathways Autoregressive Text-to-Image

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.0]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (Wed, 22 Jun 2022 01:11:29 GMT)
- DALL-E2やImagenなど画像生成系モデルの進化が速い。Partiもきわめて強力な画像生成モデルであり、作例が凄い。加えてモデルサイズを変えた比較が非常に参考になり、350Mパラメータと20Bパラメータではクオリティが異なることが分かる。
- プロジェクトサイトはParti: Pathways Autoregressive Text-to-Image Model (research.google)
  - 「we have decided not to release our Parti models, code, or data for public use without further safeguards in place.」とのこと。クローズドな方針は議論を呼びそう。（とはいえ、公開されたからといって計算リソース的に再現は容易ではないが…）

Text2Human: テキストからの人の画像生成

Text2Human: Text-Driven Controllable Human Image Generation [98.3]
既存の生成モデルは、しばしば衣服の形やテクスチャの多様性の高さの下で不足する。テキスト駆動制御可能なフレームワークであるText2Humanを,高品質で多種多様なヒューマン世代向けに提案する。
論文参考訳（メタデータ） (Tue, 31 May 2022 17:57:06 GMT)
- 非常に高品質な人間の画像生成、ほとんど違和感の無い画像が生成されている。形状生成とテクスチャ生成の2段階に分かれているのも興味深い。
- リポジトリはGitHub – yumingj/Text2Human: Code for Text2Human (SIGGRAPH 2022). Paper: Text2Human: Text-Driven Controllable Human Image Generation

Imagen: Googleの画像生成AI

Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.2]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (Mon, 23 May 2022 17:42:53 GMT)
- DALL-E 2よりも高性能と主張するGoogleの画像生成モデル。テキストエンコーダとしてT5-XXLを用いテキストをエンコード、Diffusion Modelで画像生成を行い、super resolutionをしていくというパイプライン。
- プロジェクトサイトはImagen: Text-to-Image Diffusion Models (gweb-research-imagen.appspot.com)　（論文ではhttps://imagen.research.google/）

NTED(Neural Texture Extraction and Distribution): 制御可能な人物画像生成

Neural Texture Extraction and Distribution for Controllable Person Image Synthesis [46.6]
身体のポーズや外観を明示的に制御した参照画像から人間を再レンダリングすることを目的とした、制御可能な人物画像合成タスクに対処する。人物画像が高度に構造化されていることを観察し、参照画像のセマンティックエンティティを抽出し、分散することにより、所望の画像を生成することを提案する。
論文参考訳（メタデータ）参考訳（全文） (Wed, 13 Apr 2022 03:51:07 GMT)
- 参照画像をもとに一定の制御（ポーズの変更など）を加えた人物画像を生成する研究。非常にクオリティが高い。
- リポジトリはGitHub – RenYurui/Neural-Texture-Extraction-Distribution

DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸（写実性、テキストとの類似性、多様性）でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
- オブジェクトへの属性反映はGLIDEの方が優れている（色やサイズ、位置関係の反映がイマイチ）
- テキスト生成が弱い（画像中にテキストを入れる場合正しい出力にならないことがある）
- 複雑な画像を生成しにくい（「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある）
技術的にはCLIP による分散表現とdiffusion model（GLIDEベース）が活用されているとのこと。
サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)

Make-A-Scene: 制御可能なテキストtoイメージ生成

Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.7]
近年のテキスト・ツー・イメージ生成手法は生成した画像の忠実度とテキスト関連性を漸進的に改善しているが、いくつかの重要なギャップは未解決のままである。これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。 (i)シーン形式でテキストを補完する簡単な制御機構を可能にすること。 (ii)主要画像領域(顔及び突出物)にドメイン固有の知識を取り入れて、トークン化プロセスを大幅に改善する要素を導入すること。 (iii)変圧器の用途に分類器フリーのガイダンスを適用すること。本モデルでは,512×512ピクセルの解像度で高忠実度画像を生成する能力を解放し,視覚的品質を著しく向上する。
論文参考訳（メタデータ） (Thu, 24 Mar 2022 15:44:50 GMT)
- テキストからの画像生成時にセグメンテーション情報を与えることで生成される結果を制御可能なモデルの提案。どのようなものかはThe Little Red Boat Story (Make-A-Scene) – YouTubeの2:40以降を見るのが分かりやすい。

Kubric：データセットジェネレータ

Kubric: A scalable dataset generator [73.8]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 7 Mar 2022 18:13:59 GMT)
- PyBulletとBlenderをベースにして合成データを作成可能なフレームワーク。スケーラビリティも高いとのこと。とても便利そう。
- リポジトリはGitHub – google-research/kubric: A data generation pipeline for creating semi-realistic synthetic multi-object videos with rich annotations such as instance segmentation masks, depth maps, and optical flow.

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31