Florence: Computer Visionの基礎モデル

  • Florence: A New Foundation Model for Computer Vision [97.3]
    多様な大規模データセットでトレーニングされ、幅広い下流タスクに適応できるコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フィレンツェモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
    論文  参考訳(メタデータ)   (Mon, 22 Nov 2021 18:59:55 GMT)
    • 画像分野における基礎モデルとしてSpace-Time-Modality方向において有効であり、zero/few-shot/fine-tuningの何れも動作するものを構築。多くのベンチマークでSoTAを達成。VQA v2で80を超えたのは初めてでは?と思う。
      • Space: シーン認識 → 細かいオブジェクトの認識やセグメンテーションなど
      • Time: 静的な画像 → ダイナミックな動作の認識やオブジェクトトラッキングなど
      • Modality: RGB only → 深度の利用やキャプショニングなどマルチモーダルな方向
    • FLD-900M(FLorenceDataset-900M)という9億の画像-テキストペアのデータセット、FLOD-9M (FLorence Object detection Dataset-9M)という9Mイメージ、25Kカテゴリ、33M BBOXのデータセットなど利用しているデータも大規模。
    • A holistic representation toward integrative AI – Microsoft Researchに向けた第一歩とのことで今後も期待大。

ExT5: Extremeなマルチタスクでの事前学習モデル

  • ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning [56.5]
    本稿では,多様なドメインやタスクファミリにまたがる107個の教師付きNLPタスクの大規模なコレクションであるExMixを紹介する。 ExMixを用いて,これまでで最大規模のマルチタスク事前学習の効果を調べた。 本稿では,ExMix の自己教師型スパンのマルチタスク目標を用いた事前学習モデル ExT5 を提案する。
    論文  参考訳(メタデータ)   (Mon, 22 Nov 2021 02:34:46 GMT)
    • C4と107個のNLPタスク(ExMix)を用いて構築したT5アーキテクチャの事前学習モデルExT5の提案。事前学習のおけるマルチタスクは下流タスクの性能向上に効果がある場合があり、ExT5はT5に比べ優れているとのこと。
      • SuperGLUEはSoTAに見えるがどうなんだろう?