Florence: A New Foundation Model for Computer Vision [97.3] 多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フィレンツェモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。 論文参考訳(メタデータ) (Mon, 22 Nov 2021 18:59:55 GMT)