- SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.2]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。 我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (Mon, 11 Dec 2023 17:54:11 GMT) - テキストの命令による画像編集。対象を理解したうえで編集し、画像も綺麗で違和感が少ない。
- プロジェクトサイトはSmartEdit (yuzhou914.github.io)、リポジトリはGitHub – TencentARC/SmartEdit、デモは準備中のよう