コンテンツへスキップ
- X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion [137.8]
Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。 新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。 我々は、text2imageモデルを用いて画像を生成するか、あるいはゼロショット認識モデルを用いてノイズの多いクローリング画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにする方法であることを示す。
論文 参考訳(メタデータ) (Wed, 7 Dec 2022 18:59:59 GMT)
- ゼロショットな画像認識(CLIPなど)+テキストでの画像生成モデル(Stable Diffusion)+Copy-Paste data augmentationでセグメンテーション性能が上がるという報告
- InstructPix2Pix: Learning to Follow Image Editing Instructions [103.8]
人間の指示から画像を編集する手法を提案する。 入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。 入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文 参考訳(メタデータ) (Thu, 17 Nov 2022 18:58:43 GMT)
- 指示によって画像を編集するモデルの提案。今までも様々な手法が提案されてきたが実用的なレベルになってきていると感じる
- プロジェクトサイトはInstructPix2Pix (timothybrooks.com)、作例が凄い
- UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance [40.5]
我々は,シンプルかつ複雑なシーン画像生成を統一する,シンプルで効果的なアプローチ,すなわちUPaintingを提案する。 UPaintingは、事前訓練された画像テキストマッチングモデルからテキスト条件拡散モデルにクロスモーダルガイダンスを統合する。 UPaintingは、単純なシーンと複雑なシーンの両方において、キャプションの類似性と画像の忠実さという点で、他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (Mon, 31 Oct 2022 02:33:17 GMT)
- Baiduによる品質の高い画像生成モデルの提案、MS-COCO with zero-shot FID ではSoTAとはいかないまでも良いスコア。本当に競争が激しい分野。。。
- ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts [41.1]
ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。 シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。 画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (Thu, 27 Oct 2022 08:21:35 GMT)- ERNIE-ViLGの更新版、MS-COCO with zero-shot FID でSoTAを主張
- 論文中の画像のレベルも上がっており、非常に競争の激しい分野という感想
- LAION-5B: An open large-scale dataset for training next generation image-text models [16.1]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。 このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。 また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (Sun, 16 Oct 2022 00:08:18 GMT)
- DreamFusion: Text-to-3D using 2D Diffusion [52.5]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。 本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。 提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (Thu, 29 Sep 2022 17:50:40 GMT)
- A Survey on Generative Diffusion Model [75.5]
拡散モデルには、遅い生成過程の自然な欠点があり、多くの強化された研究につながっている。 本稿では,学習スケジュール,トレーニング不要サンプリング,混合モデリング,スコア・アンド・拡散統一といった,拡散モデルを高速化する高度な手法を提案する。 拡散モデルを持つアプリケーションは、コンピュータビジョン、シーケンスモデリング、オーディオ、科学のためのAIを含む。
論文 参考訳(メタデータ) (Tue, 6 Sep 2022 16:56:21 GMT)- 最近話題のStable Diffusionなどに関連する生成系拡散モデルのサーベイ
- Diffusion Models: A Comprehensive Survey of Methods and Applications [6.0]
拡散モデル(英: Diffusion model)は、密度理論の確立を伴う様々なタスクにおいて印象的な結果を示す深層生成モデルのクラスである。 近年,拡散モデルの性能向上への熱意が高まっている。
論文 参考訳(メタデータ) (Fri, 2 Sep 2022 02:59:10 GMT)
- DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.7]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。 トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。 次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (Thu, 25 Aug 2022 17:45:49 GMT)- 少量のデータを用いて画像生成モデルに新たな画像(例えば自分のペットなど)を組み込めるという研究。Stable DiffusionやMidjurneyといった最近流行りの画像生成モデルをパーソナライズできる内容でとても面白い。
- プロジェクトサイトはDreamBooth