Florence: Computer Visionの基礎モデル

  • Florence: A New Foundation Model for Computer Vision [97.3]
    多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フィレンツェモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
    論文  参考訳(メタデータ)   (Mon, 22 Nov 2021 18:59:55 GMT)
    • 画像分野における基礎モデルとしてSpace-Time-Modality方向において有効であり、zero/few-shot/fine-tuningの何れも動作するものを構築。多くのベンチマークでSoTAを達成。VQA v2で80を超えたのは初めてでは?と思う。
      • Space: シーン認識 → 細かいオブジェクトの認識やセグメンテーションなど
      • Time: 静的な画像 → ダイナミックな動作の認識やオブジェクトトラッキングなど
      • Modality: RGB only → 深度の利用やキャプショニングなどマルチモーダルな方向
    • FLD-900M(FLorenceDataset-900M)という9億の画像-テキストペアのデータセット、FLOD-9M (FLorence Object detection Dataset-9M)という9Mイメージ、25Kカテゴリ、33M BBOXのデータセットなど利用しているデータも大規模。
    • A holistic representation toward integrative AI – Microsoft Researchに向けた第一歩とのことで今後も期待大。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です