画像生成 – ページ 2 – arXiv最新論文の紹介

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models [15.7]
PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。 PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 15:51:12 GMT)
入力画像＋テキストからのアニメーション生成。アニメ中の破綻が少ない。
リポジトリはPIA: Personalized Image Animator (pi-animator.github.io)、デモもある。

Holistic Evaluation of Text-To-Image Models

Holistic Evaluation of Text-To-Image Models [153.5]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文参考訳（メタデータ） (Tue, 7 Nov 2023 19:00:56 GMT)
「text-image alignment, image quality, aesthetics, originality, reasoning, knowledge, bias, toxicity, fairness, robustness, multilinguality, and efficiency」と12の側面での画像生成AIの評価。結果は「Overall, DALL-E 2 appears to be a versatile performer across human metrics.However, no single model emerges as the top performer in all aspects.」とのこと。
リポジトリはGitHub – stanford-crfm/helm: Holistic Evaluation of Language Models (HELM), a framework to increase the transparency of language models (https://arxiv.org/abs/2211.09110).、Holistic Evaluation of Text-To-Image Models (HEIM) (stanford.edu)

LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation

LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [112.3]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
論文参考訳（メタデータ） (Wed, 9 Aug 2023 17:45:04 GMT)
LLMを通してテキストからレイアウト情報を推測し、画像生成する手法の提案。
プロジェクトサイトはLayoutLLM-T2I

Infinigen

Infinite Photorealistic Worlds using Procedural Generation [135.1]
インフィニゲン(Infinigen)は、自然界のフォトリアリスティックな3Dシーンのプロシージャジェネレータである。形状からテクスチャに至るまで、すべての資産はランダム化された数学的ルールによってゼロから生成される。
論文参考訳（メタデータ） (Mon, 26 Jun 2023 17:20:37 GMT)
美しい３Dシーンのジェネレータ。Deepでぽん的なアプローチではない。Real geometry、OSSと凄いソフトウェア。
プロジェクトサイトはHome | Infinigen、リポジトリはGitHub – princeton-vl/infinigen: Infinite Photorealistic Worlds using Procedural Generation

LLMScore

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation [72.3]
既存のテキスト対画像合成の自動評価は、画像とテキストのマッチングスコアしか提供できない。マルチグラニュラリティ合成による評価スコアを提供する新しいフレームワークであるLLMScoreを提案する。
論文参考訳（メタデータ） (Thu, 18 May 2023 16:57:57 GMT)
LLMを用いた画像生成の評価指標の提案、優れた結果だが「GPT-4 based LLMScore (Error Counting) is only comparable with GPT-3.5」というのが不思議
リポジトリはGitHub – YujieLu10/LLMScore: LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation

Multimodal Image Synthesis and Editing: A Survey

Multimodal Image Synthesis and Editing: A Survey [104.0]
コンピュータビジョンとディープラーニングの研究において、マルチモーダル情報間の効果的な相互作用と融合が重要な役割を担っている。マルチモーダル画像合成と編集は近年ホットな研究テーマになっている。近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文参考訳（メタデータ） (Mon, 24 Apr 2023 12:43:35 GMT)
画像生成・編集に関するサーベイのver4
GitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey

Scaling up GANs for Text-to-Image Synthesis

Scaling up GANs for Text-to-Image Synthesis [59.5]
テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。 DALL-E 2では、自動回帰モデルと拡散モデルが大規模生成モデルの新たな標準となった。我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介する。
論文参考訳（メタデータ） (Thu, 9 Mar 2023 18:59:47 GMT)
Stable Diffusionを超える（低いFID）性能のGANアーキテクチャのモデル。プロジェクトサイトを見る限り品質が高く、そして動作が高速。
リポジトリはGigaGAN: Scaling up GANs for Text-to-Image Synthesis (mingukkang.github.io)

Word-As-Image for Semantic Typography

Word-As-Image for Semantic Typography [41.4]
単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
論文参考訳（メタデータ） (Fri, 3 Mar 2023 09:59:25 GMT)
看板などで使われる単語の一部が絵になっているような画像を作成する手法の提案。プロジェクトサイトの動画が分かりやすい。
プロジェクトサイトはWord-As-Image for Semantic Typography (wordasimage.github.io)

ControlNet、MultiDiffusion

単純にテキストから画像を生成するのではなく、その構図等を制御可能な研究報告が出ていた。何ができているかはサンプルを見るのが早い。欲しい絵があった場合、その描き方が根底から変わりそうな…

Adding Conditional Control to Text-to-Image Diffusion Models [43.8]
本研究では,事前学習した大規模拡散モデルを制御するニューラルネットワーク構造であるControlNetを提案する。 ControlNetは、エンドツーエンドでタスク固有の条件を学習し、トレーニングデータセットが小さい場合でも、学習は堅牢である。
論文参考訳（メタデータ） (Fri, 10 Feb 2023 23:12:37 GMT)
リポジトリはGitHub – lllyasviel/ControlNet: Let us control diffusion models

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.6]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文参考訳（メタデータ） (Thu, 16 Feb 2023 06:28:29 GMT)
制御可能な（マスクごとにテキストを設定することなどが可能な）画像生成モデルの提案
リポジトリはMultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

Toward General Design Principles for Generative AI Applications

Toward General Design Principles for Generative AI Applications [16.1]
生成AIアプリケーションの設計に関する7つの原則を提示する。生成AIの特徴として、複数の成果と不完全性、探索と制御、メンタルモデルと説明の6つの原則が重視されている。我々は、生成モデルの有害な出力、誤用、または人的変位の可能性によって引き起こされる可能性のある潜在的な害に対して設計をするようデザイナーに促す。
論文参考訳（メタデータ） (Fri, 13 Jan 2023 14:37:56 GMT)
近年、強力な生成系AI（画像生成、テキスト生成、…）のリリースが相次いでいるがその設計で守るべき原則を整理した論文、100以上の引用数があり納得感のある指摘となっている
７つの原則は「Design against harms」だけが独立（全体をカバー）、その他は「Multiple outputs」「Imperfection」「Mental models」「Explanation」「Exploration」「Control」が挙げられている。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31