Florence: Computer Visionの基礎モデル – arXiv最新論文の紹介

Florence: A New Foundation Model for Computer Vision [97.3]
多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フィレンツェモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (Mon, 22 Nov 2021 18:59:55 GMT)
- 画像分野における基礎モデルとしてSpace-Time-Modality方向において有効であり、zero/few-shot/fine-tuningの何れも動作するものを構築。多くのベンチマークでSoTAを達成。VQA v2で80を超えたのは初めてでは？と思う。
  - Space: シーン認識 → 細かいオブジェクトの認識やセグメンテーションなど
  - Time: 静的な画像 → ダイナミックな動作の認識やオブジェクトトラッキングなど
  - Modality: RGB only → 深度の利用やキャプショニングなどマルチモーダルな方向
- FLD-900M(FLorenceDataset-900M)という9億の画像-テキストペアのデータセット、FLOD-9M (FLorence Object detection Dataset-9M)という9Mイメージ、25Kカテゴリ、33M BBOXのデータセットなど利用しているデータも大規模。
- A holistic representation toward integrative AI – Microsoft Researchに向けた第一歩とのことで今後も期待大。

コメントを残す

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル