LiT-tuning(Locked-image Text tuning): 効果的なゼロショット

LiT: Zero-Shot Transfer with Locked-image Text Tuning [68.8]
『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。 LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
論文参考訳（メタデータ） (Mon, 15 Nov 2021 18:53:48 GMT)
- 40億のイメージ-テキストペアを用いたLiT-tuningによりゼロショットImageNetで84.5%の精度を達成。
- 画像モデル部分をロックして学習することが効果的とのことで「画像-テキストデータは、自然言語と視覚世界の対応を学ぶのに最適であるが、最先端の画像表現を学ぶためには正確かつクリーンではないかもしれない」との指摘。

コメントを残す

コメントを残す コメントをキャンセル