FashionViL: ファッションにフォーカスした画像-言語モデル

FashionViL: Fashion-Focused Vision-and-Language Representation Learning [129.5]
ファッション中心の視覚・言語(V+L)表現学習フレームワークFashionViLを提案する。特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。
論文参考訳（メタデータ） (Sun, 17 Jul 2022 12:06:27 GMT)
- ファッション用のRepresentation Learningフレームワークの提案。MVC: Multi-view contrastive learning (ファッションの画像は様々な方向から撮影されていることを利用)、PAC: PseudoAttribute Classification (ファッションアイテムで同じ属性を持つものをまとめられる)などを利用し複数のタスクでSoTAを主張。
  - ドメインに応じた事前学習の有効性が分かる結果だと思う
- リポジトリはGitHub – BrandonHanx/mmf: [ECCV 2022] FashionViL: Fashion-Focused V+L Representation Learning

コメントを残す

コメントを残す コメントをキャンセル