FashionViL: ファッションにフォーカスした画像-言語モデル

  • FashionViL: Fashion-Focused Vision-and-Language Representation Learning [129.5]
    ファッション中心の視覚・言語(V+L)表現学習フレームワークFashionViLを提案する。 特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。 大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。
    論文  参考訳(メタデータ)   (Sun, 17 Jul 2022 12:06:27 GMT)
    • ファッション用のRepresentation Learningフレームワークの提案。MVC: Multi-view contrastive learning (ファッションの画像は様々な方向から撮影されていることを利用)、PAC: PseudoAttribute Classification (ファッションアイテムで同じ属性を持つものをまとめられる)などを利用し複数のタスクでSoTAを主張。
      • ドメインに応じた事前学習の有効性が分かる結果だと思う
    • リポジトリはGitHub – BrandonHanx/mmf: [ECCV 2022] FashionViL: Fashion-Focused V+L Representation Learning

Representation Learningのサーベイ

  • Empirical Evaluation and Theoretical Analysis for Representation Learning: A Survey [25.6]
    表現学習により、データセットからジェネリックな特徴表現を自動的に抽出して、別の機械学習タスクを解決することができます。 近年,表現学習アルゴリズムと単純な予測器によって抽出された特徴表現は,複数の機械学習タスクにおいて最先端の性能を示す。
    論文  参考訳(メタデータ)   (Mon, 18 Apr 2022 09:18:47 GMT)
    • Representation Learningの現状がわかるありがたいサーベイ。