- LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation [72.3]
既存のテキスト対画像合成の自動評価は、画像とテキストのマッチングスコアしか提供できない。 マルチグラニュラリティ合成による評価スコアを提供する新しいフレームワークであるLLMScoreを提案する。
論文 参考訳(メタデータ) (Thu, 18 May 2023 16:57:57 GMT) - LLMを用いた画像生成の評価指標の提案、優れた結果だが「GPT-4 based LLMScore (Error Counting) is only comparable with GPT-3.5」というのが不思議
- リポジトリはGitHub – YujieLu10/LLMScore: LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation
タグ: 画像生成
Multimodal Image Synthesis and Editing: A Survey
- Multimodal Image Synthesis and Editing: A Survey [104.0]
コンピュータビジョンとディープラーニングの研究において、マルチモーダル情報間の効果的な相互作用と融合が重要な役割を担っている。 マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。 近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。 ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (Mon, 24 Apr 2023 12:43:35 GMT) - 画像生成・編集に関するサーベイのver4
- GitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey
Scaling up GANs for Text-to-Image Synthesis
- Scaling up GANs for Text-to-Image Synthesis [59.5]
テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。 技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。 DALL-E 2では、自動回帰モデルと拡散モデルが大規模生成モデルの新たな標準となった。 我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介する。
論文 参考訳(メタデータ) (Thu, 9 Mar 2023 18:59:47 GMT) - Stable Diffusionを超える(低いFID)性能のGANアーキテクチャのモデル。プロジェクトサイトを見る限り品質が高く、そして動作が高速。
- リポジトリはGigaGAN: Scaling up GANs for Text-to-Image Synthesis (mingukkang.github.io)
Word-As-Image for Semantic Typography
- Word-As-Image for Semantic Typography [41.4]
単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。 本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
論文 参考訳(メタデータ) (Fri, 3 Mar 2023 09:59:25 GMT) - 看板などで使われる単語の一部が絵になっているような画像を作成する手法の提案。プロジェクトサイトの動画が分かりやすい。
- プロジェクトサイトはWord-As-Image for Semantic Typography (wordasimage.github.io)
ControlNet、MultiDiffusion
単純にテキストから画像を生成するのではなく、その構図等を制御可能な研究報告が出ていた。何ができているかはサンプルを見るのが早い。欲しい絵があった場合、その描き方が根底から変わりそうな…
- Adding Conditional Control to Text-to-Image Diffusion Models [43.8]
本研究では,事前学習した大規模拡散モデルを制御するニューラルネットワーク構造であるControlNetを提案する。 ControlNetは、エンドツーエンドでタスク固有の条件を学習し、トレーニングデータセットが小さい場合でも、学習は堅牢である。
論文 参考訳(メタデータ) (Fri, 10 Feb 2023 23:12:37 GMT) - リポジトリはGitHub – lllyasviel/ControlNet: Let us control diffusion models
- MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.6]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。 高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (Thu, 16 Feb 2023 06:28:29 GMT) - 制御可能な(マスクごとにテキストを設定することなどが可能な)画像生成モデルの提案
- リポジトリはMultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
Toward General Design Principles for Generative AI Applications
- Toward General Design Principles for Generative AI Applications [16.1]
生成AIアプリケーションの設計に関する7つの原則を提示する。 生成AIの特徴として、複数の成果と不完全性、探索と制御、メンタルモデルと説明の6つの原則が重視されている。 我々は、生成モデルの有害な出力、誤用、または人的変位の可能性によって引き起こされる可能性のある潜在的な害に対して設計をするようデザイナーに促す。
論文 参考訳(メタデータ) (Fri, 13 Jan 2023 14:37:56 GMT) - 近年、強力な生成系AI(画像生成、テキスト生成、…)のリリースが相次いでいるがその設計で守るべき原則を整理した論文、100以上の引用数があり納得感のある指摘となっている
- 7つの原則は「Design against harms」だけが独立(全体をカバー)、その他は「Multiple outputs」「Imperfection」「Mental models」「Explanation」「Exploration」「Control」が挙げられている。
Muse: Text-To-Image Generation via Masked Generative Transformers
- Muse: Text-To-Image Generation via Masked Generative Transformers [81.2]
Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。 Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。 Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
論文 参考訳(メタデータ) (Mon, 2 Jan 2023 14:43:38 GMT) - mask-based trainingを用いたテキスト-画像モデルの提案。優れた(ImagenやDALL-E 2より上の)性能を発揮し、最近流行りのDiffusionモデルよりも高速とのこと。
- Muse: Text-To-Image Generation via Masked Generative Transformers (muse-model.github.io)
X-Paste
- X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion [137.8]
Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。 新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。 我々は、text2imageモデルを用いて画像を生成するか、あるいはゼロショット認識モデルを用いてノイズの多いクローリング画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにする方法であることを示す。
論文 参考訳(メタデータ) (Wed, 7 Dec 2022 18:59:59 GMT) - ゼロショットな画像認識(CLIPなど)+テキストでの画像生成モデル(Stable Diffusion)+Copy-Paste data augmentationでセグメンテーション性能が上がるという報告
VectorFusion
- VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models [82.9]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,SVG-exportable vector graphicsを生成する。 近年のテキスト・ツー・3D研究に触発されて,Score Distillation Sampling を用いたキャプションと整合したSVGを学習した。 実験では、以前の作品よりも品質が向上し、ピクセルアートやスケッチを含む様々なスタイルが示されている。
論文 参考訳(メタデータ) (Mon, 21 Nov 2022 10:04:27 GMT) - Text-to-SVGの研究、Diffusion Modelは本当に強力。
- プロジェクトサイトはVectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models (ajayj.com)
Versatile Diffusion
- Versatile Diffusion: Text, Images and Variations All in One Diffusion Model [79.5]
近年の拡散モデルの発展は、多くの世代における重要なマイルストーンとなっている。 既存の単一フロー拡散パイプラインを Versatile Diffusion (VD) と呼ばれるマルチフローネットワークに拡張する。 VDは1つの統一されたモデルで、テキスト・ツー・イメージ・トゥ・テキスト、イメージ・ヴァレージョン、およびテキスト・ヴァレージョンを処理する。
論文 参考訳(メタデータ) (Tue, 15 Nov 2022 17:44:05 GMT) - text-to-image, image-to-text, image-variation, text-variationを取り扱え宇モデルの提案
- リポジトリはSHI-Labs/Versatile-Diffusion: Versatile Diffusion: Text, Images and Variations All in One Diffusion Model, 2022 (github.com)