画像生成 – ページ 3 – arXiv最新論文の紹介

Muse: Text-To-Image Generation via Masked Generative Transformers

Muse: Text-To-Image Generation via Masked Generative Transformers [81.2]
Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。 Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。 Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
論文参考訳（メタデータ） (Mon, 2 Jan 2023 14:43:38 GMT)
mask-based trainingを用いたテキスト-画像モデルの提案。優れた（ImagenやDALL-E 2より上の）性能を発揮し、最近流行りのDiffusionモデルよりも高速とのこと。
Muse: Text-To-Image Generation via Masked Generative Transformers (muse-model.github.io)

X-Paste

X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion [137.8]
Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。我々は、text2imageモデルを用いて画像を生成するか、あるいはゼロショット認識モデルを用いてノイズの多いクローリング画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにする方法であることを示す。
論文参考訳（メタデータ） (Wed, 7 Dec 2022 18:59:59 GMT)
ゼロショットな画像認識（CLIPなど）＋テキストでの画像生成モデル（Stable Diffusion）＋Copy-Paste data augmentationでセグメンテーション性能が上がるという報告

VectorFusion

VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.9]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。近年のテキスト・ツー・3D研究に触発されて,Score Distillation Sampling を用いたキャプションと整合したSVGを学習した。実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文参考訳（メタデータ） (Mon, 21 Nov 2022 10:04:27 GMT)
Text-to-SVGの研究、Diffusion Modelは本当に強力。
プロジェクトサイトはVectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models (ajayj.com)

Versatile Diffusion

Versatile Diffusion: Text, Images and Variations All in One Diffusion Model [79.5]
近年の拡散モデルの発展は、多くの世代における重要なマイルストーンとなっている。既存の単一フロー拡散パイプラインを Versatile Diffusion (VD) と呼ばれるマルチフローネットワークに拡張する。 VDは1つの統一されたモデルで、テキスト・ツー・イメージ・トゥ・テキスト、イメージ・ヴァレージョン、およびテキスト・ヴァレージョンを処理する。
論文参考訳（メタデータ） (Tue, 15 Nov 2022 17:44:05 GMT)
text-to-image, image-to-text, image-variation, text-variationを取り扱え宇モデルの提案
リポジトリはSHI-Labs/Versatile-Diffusion: Versatile Diffusion: Text, Images and Variations All in One Diffusion Model, 2022 (github.com)

InstructPix2Pix

InstructPix2Pix: Learning to Follow Image Editing Instructions [103.8]
人間の指示から画像を編集する手法を提案する。入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文参考訳（メタデータ） (Thu, 17 Nov 2022 18:58:43 GMT)
指示によって画像を編集するモデルの提案。今までも様々な手法が提案されてきたが実用的なレベルになってきていると感じる
プロジェクトサイトはInstructPix2Pix (timothybrooks.com)、作例が凄い

UPaintingとeDiffi

UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance [40.5]
我々は,シンプルかつ複雑なシーン画像生成を統一する,シンプルで効果的なアプローチ,すなわちUPaintingを提案する。 UPaintingは、事前訓練された画像テキストマッチングモデルからテキスト条件拡散モデルにクロスモーダルガイダンスを統合する。 UPaintingは、単純なシーンと複雑なシーンの両方において、キャプションの類似性と画像の忠実さという点で、他のモデルよりも大幅に優れています。
論文参考訳（メタデータ） (Mon, 31 Oct 2022 02:33:17 GMT)
Baiduによる品質の高い画像生成モデルの提案、MS-COCO with zero-shot FID ではSoTAとはいかないまでも良いスコア。本当に競争が激しい分野。。。

eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.5]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (Wed, 2 Nov 2022 17:43:04 GMT)
こちらはNVIDIAの成果
プロジェクトサイトはeDiffi: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers (deepimagination.cc)

ERNIE-ViLG 2.0

ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [41.1]
ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 08:21:35 GMT)
- ERNIE-ViLGの更新版、MS-COCO with zero-shot FID でSoTAを主張
- 論文中の画像のレベルも上がっており、非常に競争の激しい分野という感想

LAION-5B

LAION-5B: An open large-scale dataset for training next generation image-text models [16.1]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文参考訳（メタデータ） (Sun, 16 Oct 2022 00:08:18 GMT)
- Stable Diffusionでも使用されている大規模データセット
- プロジェクトサイトはLAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL DATASETS | LAION

DreamFusion

DreamFusion: Text-to-3D using 2D Diffusion [52.5]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 17:50:40 GMT)
- テキストからの3Dモデルの生成、Imagen（64×64） + NeRF like modelとのこと
- DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)

Diffusion Modelのサーベイ

A Survey on Generative Diffusion Model [75.5]
拡散モデルには、遅い生成過程の自然な欠点があり、多くの強化された研究につながっている。本稿では,学習スケジュール,トレーニング不要サンプリング,混合モデリング,スコア・アンド・拡散統一といった,拡散モデルを高速化する高度な手法を提案する。拡散モデルを持つアプリケーションは、コンピュータビジョン、シーケンスモデリング、オーディオ、科学のためのAIを含む。
論文参考訳（メタデータ） (Tue, 6 Sep 2022 16:56:21 GMT)
- 最近話題のStable Diffusionなどに関連する生成系拡散モデルのサーベイ

Diffusion Models: A Comprehensive Survey of Methods and Applications [6.0]
拡散モデル(英: Diffusion model)は、密度理論の確立を伴う様々なタスクにおいて印象的な結果を示す深層生成モデルのクラスである。近年,拡散モデルの性能向上への熱意が高まっている。
論文参考訳（メタデータ） (Fri, 2 Sep 2022 02:59:10 GMT)

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31