- Scaling Language-Image Pre-training via Masking [63.4]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。 マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。 FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (Thu, 1 Dec 2022 18:59:57 GMT) - 学習時に画像パッチの一部をマスクすることで高速に学習ができるとの報告、CLIPより優れた結果だったのこと。
- 50%、75%という高いマスク比で高速に学習ができるのはそんな気はするが、性能が落ちていなさそう(一部は勝っている)なのが凄い。