ARMANI: pARt-level garMent-text Alignment for uNIfied cross-modal fashion design

ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design [66.7]
クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
論文参考訳（メタデータ） (Thu, 11 Aug 2022 03:44:02 GMT)
- （一部の）画像、スケッチ、テキスト入力などからファッション画像（服全体など）を生成する研究。柄の一部＋テキスト指示で服の画像全体を作ることなどが可能とのこと。
  - 内容とは関係ないが、かなり無理がある略称
- リポジトリはGitHub – Harvey594/ARMANI

コメントを残す

コメントを残す コメントをキャンセル