- Holistic Evaluation of Text-To-Image Models [153.5]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。 テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。 以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (Tue, 7 Nov 2023 19:00:56 GMT) - 「text-image alignment, image quality, aesthetics, originality, reasoning, knowledge, bias, toxicity, fairness, robustness, multilinguality, and efficiency」と12の側面での画像生成AIの評価。結果は「Overall, DALL-E 2 appears to be a versatile performer across human metrics.However, no single model emerges as the top performer in all aspects.」とのこと。
- リポジトリはGitHub – stanford-crfm/helm: Holistic Evaluation of Language Models (HELM), a framework to increase the transparency of language models (https://arxiv.org/abs/2211.09110).、Holistic Evaluation of Text-To-Image Models (HEIM) (stanford.edu)
タグ: 画像生成
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation
- LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [112.3]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。 提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
論文 参考訳(メタデータ) (Wed, 9 Aug 2023 17:45:04 GMT) - LLMを通してテキストからレイアウト情報を推測し、画像生成する手法の提案。
- プロジェクトサイトはLayoutLLM-T2I
Infinigen
- Infinite Photorealistic Worlds using Procedural Generation [135.1]
インフィニゲン(Infinigen)は、自然界のフォトリアリスティックな3Dシーンのプロシージャジェネレータである。 形状からテクスチャに至るまで、すべての資産はランダム化された数学的ルールによってゼロから生成される。
論文 参考訳(メタデータ) (Mon, 26 Jun 2023 17:20:37 GMT) - 美しい3Dシーンのジェネレータ。Deepでぽん的なアプローチではない。Real geometry、OSSと凄いソフトウェア。
- プロジェクトサイトはHome | Infinigen、リポジトリはGitHub – princeton-vl/infinigen: Infinite Photorealistic Worlds using Procedural Generation
LLMScore
- LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation [72.3]
既存のテキスト対画像合成の自動評価は、画像とテキストのマッチングスコアしか提供できない。 マルチグラニュラリティ合成による評価スコアを提供する新しいフレームワークであるLLMScoreを提案する。
論文 参考訳(メタデータ) (Thu, 18 May 2023 16:57:57 GMT) - LLMを用いた画像生成の評価指標の提案、優れた結果だが「GPT-4 based LLMScore (Error Counting) is only comparable with GPT-3.5」というのが不思議
- リポジトリはGitHub – YujieLu10/LLMScore: LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation
Multimodal Image Synthesis and Editing: A Survey
- Multimodal Image Synthesis and Editing: A Survey [104.0]
コンピュータビジョンとディープラーニングの研究において、マルチモーダル情報間の効果的な相互作用と融合が重要な役割を担っている。 マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。 近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。 ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (Mon, 24 Apr 2023 12:43:35 GMT) - 画像生成・編集に関するサーベイのver4
- GitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey
Scaling up GANs for Text-to-Image Synthesis
- Scaling up GANs for Text-to-Image Synthesis [59.5]
テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。 技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。 DALL-E 2では、自動回帰モデルと拡散モデルが大規模生成モデルの新たな標準となった。 我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介する。
論文 参考訳(メタデータ) (Thu, 9 Mar 2023 18:59:47 GMT) - Stable Diffusionを超える(低いFID)性能のGANアーキテクチャのモデル。プロジェクトサイトを見る限り品質が高く、そして動作が高速。
- リポジトリはGigaGAN: Scaling up GANs for Text-to-Image Synthesis (mingukkang.github.io)
Word-As-Image for Semantic Typography
- Word-As-Image for Semantic Typography [41.4]
単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。 本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
論文 参考訳(メタデータ) (Fri, 3 Mar 2023 09:59:25 GMT) - 看板などで使われる単語の一部が絵になっているような画像を作成する手法の提案。プロジェクトサイトの動画が分かりやすい。
- プロジェクトサイトはWord-As-Image for Semantic Typography (wordasimage.github.io)
ControlNet、MultiDiffusion
単純にテキストから画像を生成するのではなく、その構図等を制御可能な研究報告が出ていた。何ができているかはサンプルを見るのが早い。欲しい絵があった場合、その描き方が根底から変わりそうな…
- Adding Conditional Control to Text-to-Image Diffusion Models [43.8]
本研究では,事前学習した大規模拡散モデルを制御するニューラルネットワーク構造であるControlNetを提案する。 ControlNetは、エンドツーエンドでタスク固有の条件を学習し、トレーニングデータセットが小さい場合でも、学習は堅牢である。
論文 参考訳(メタデータ) (Fri, 10 Feb 2023 23:12:37 GMT) - リポジトリはGitHub – lllyasviel/ControlNet: Let us control diffusion models
- MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.6]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。 高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (Thu, 16 Feb 2023 06:28:29 GMT) - 制御可能な(マスクごとにテキストを設定することなどが可能な)画像生成モデルの提案
- リポジトリはMultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
Toward General Design Principles for Generative AI Applications
- Toward General Design Principles for Generative AI Applications [16.1]
生成AIアプリケーションの設計に関する7つの原則を提示する。 生成AIの特徴として、複数の成果と不完全性、探索と制御、メンタルモデルと説明の6つの原則が重視されている。 我々は、生成モデルの有害な出力、誤用、または人的変位の可能性によって引き起こされる可能性のある潜在的な害に対して設計をするようデザイナーに促す。
論文 参考訳(メタデータ) (Fri, 13 Jan 2023 14:37:56 GMT) - 近年、強力な生成系AI(画像生成、テキスト生成、…)のリリースが相次いでいるがその設計で守るべき原則を整理した論文、100以上の引用数があり納得感のある指摘となっている
- 7つの原則は「Design against harms」だけが独立(全体をカバー)、その他は「Multiple outputs」「Imperfection」「Mental models」「Explanation」「Exploration」「Control」が挙げられている。
Muse: Text-To-Image Generation via Masked Generative Transformers
- Muse: Text-To-Image Generation via Masked Generative Transformers [81.2]
Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。 Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。 Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
論文 参考訳(メタデータ) (Mon, 2 Jan 2023 14:43:38 GMT) - mask-based trainingを用いたテキスト-画像モデルの提案。優れた(ImagenやDALL-E 2より上の)性能を発揮し、最近流行りのDiffusionモデルよりも高速とのこと。
- Muse: Text-To-Image Generation via Masked Generative Transformers (muse-model.github.io)