CiT: Curation in Training

  • CiT: Curation in Training for Effective Vision-Language Data [84.8]
    本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。 CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。 我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 18:59:57 GMT)
  • 近年のモデル構築時には大規模データセットからメタデータ等を用いて目的にあったものをフィルタリングすることが多いが、そのキュレーション作業をTrainingプロセスに組み込むという手法の提案。
  • GitHub – facebookresearch/CiT: Code for the paper titled “CiT Curation in Training for Effective Vision-Language Data”.

Muse: Text-To-Image Generation via Masked Generative Transformers

  • Muse: Text-To-Image Generation via Masked Generative Transformers [81.2]
    Museはテキストから画像への変換モデルであり、最先端の画像生成性能を実現する。 Imagen や DALL-E 2 のようなピクセル空間拡散モデルと比較して、Muse は離散トークンを使用するため、はるかに効率的である。 Museはまた、モデルを微調整したり反転したりすることなく、多数の画像編集アプリケーションを直接可能にしている。
    論文  参考訳(メタデータ)   (Mon, 2 Jan 2023 14:43:38 GMT)
  • mask-based trainingを用いたテキスト-画像モデルの提案。優れた(ImagenやDALL-E 2より上の)性能を発揮し、最近流行りのDiffusionモデルよりも高速とのこと。
  • Muse: Text-To-Image Generation via Masked Generative Transformers (muse-model.github.io)