- Multimodal Image Synthesis and Editing: A Survey [41.6]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。 明確な手がかりを提供する従来のビジュアルガイダンスとは異なり、マルチモーダルガイダンスは画像合成と編集において直感的で柔軟な手段を提供する。 本稿では、GAN(Generative Adversarial Networks)、GAN Inversion、Transformer、NeRFやDiffusionモデルなどを含む詳細なフレームワークを用いたマルチモーダル画像合成と編集手法について述べる。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 27 Dec 2021 10:00:16 GMT)- セマンティックマップやテキスト、音声などを手掛かりとしたマルチモーダルな画像生成、編集のサーベイ。タスク、有力手法、データセット、評価とこの分野を概観できる。
- サーベイ対象に12月発表のFugu-MT 論文翻訳(概要): CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields (fugumt.com)が入っているが、どのタイミングで編集したんだろう。。。
- プロジェクトサイトはGitHub – fnzhan/MISE: Multimodal Image Synthesis and Editing: A Survey [Preprint]
- セマンティックマップやテキスト、音声などを手掛かりとしたマルチモーダルな画像生成、編集のサーベイ。タスク、有力手法、データセット、評価とこの分野を概観できる。