コンテンツへスキップ
- Text2Human: Text-Driven Controllable Human Image Generation [98.3]
既存の生成モデルは、しばしば衣服の形やテクスチャの多様性の高さの下で不足する。 テキスト駆動制御可能なフレームワークであるText2Humanを,高品質で多種多様なヒューマン世代向けに提案する。
論文 参考訳(メタデータ) (Tue, 31 May 2022 17:57:06 GMT)
- Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.2]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。 テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (Mon, 23 May 2022 17:42:53 GMT)
- Neural Texture Extraction and Distribution for Controllable Person Image Synthesis [46.6]
身体のポーズや外観を明示的に制御した参照画像から人間を再レンダリングすることを目的とした、制御可能な人物画像合成タスクに対処する。 人物画像が高度に構造化されていることを観察し、参照画像のセマンティックエンティティを抽出し、分散することにより、所望の画像を生成することを提案する。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 13 Apr 2022 03:51:07 GMT)
- 非常にクオリティの高い画像を生成するDALL-Eの後継モデル。guidance scaleによるが何らかの軸(写実性、テキストとの類似性、多様性)でGLIDEよりも人間の評価が優れている。下記のようなLimitationも挙げられているが、サンプル画像からは実用レベルに達しているように感じる。
- オブジェクトへの属性反映はGLIDEの方が優れている(色やサイズ、位置関係の反映がイマイチ)
- テキスト生成が弱い(画像中にテキストを入れる場合正しい出力にならないことがある)
- 複雑な画像を生成しにくい(「64×64の画像を生成、アップサンプリングしているためではないか」という記載がある)
- 技術的にはCLIP による分散表現とdiffusion model(GLIDEベース)が活用されているとのこと。
- サイトのURLはDALL·E 2 (openai.com)、論文はdall-e-2.pdf (openai.com)
- Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.7]
近年のテキスト・ツー・イメージ生成手法は生成した画像の忠実度とテキスト関連性を漸進的に改善しているが、いくつかの重要なギャップは未解決のままである。 これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。 (i)シーン形式でテキストを補完する簡単な制御機構を可能にすること。 (ii)主要画像領域(顔及び突出物)にドメイン固有の知識を取り入れて、トークン化プロセスを大幅に改善する要素を導入すること。 (iii)変圧器の用途に分類器フリーのガイダンスを適用すること。 本モデルでは,512×512ピクセルの解像度で高忠実度画像を生成する能力を解放し,視覚的品質を著しく向上する。
論文 参考訳(メタデータ) (Thu, 24 Mar 2022 15:44:50 GMT)
- Kubric: A scalable dataset generator [73.8]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。 本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 7 Mar 2022 18:13:59 GMT)- PyBulletとBlenderをベースにして合成データを作成可能なフレームワーク。スケーラビリティも高いとのこと。とても便利そう。
- Deep Image Synthesis from Intuitive User Input: A Review and Perspectives [23.0]
コンピュータグラフィックス、アート、デザインの多くの応用において、ユーザはテキスト、スケッチ、ストローク、グラフ、レイアウトといった直感的な非画像入力を提供し、入力内容に準拠したフォトリアリスティックな画像を自動的に生成するコンピュータシステムを持つことが望ましい。 GAN(Generative Adversarial Network)やVAE(Variational autoencoders )、フローベース手法といった深層生成モデルの最近の進歩は、より強力で汎用的な画像生成タスクを可能にしている。 本稿では,直感的なユーザ入力による画像合成,入力の汎用性の向上,画像生成手法,ベンチマークデータセット,評価指標について概説する。
論文 参考訳(メタデータ) (Fri, 9 Jul 2021 06:31:47 GMT)- 画像生成に関するサーベイ。流行の手法、データセット、評価指標など一通りの内容が記載されていて勉強になる。