FLAVA(Foundational Language And Vision Alignment): 言語と画像を結びつける基礎モデル

  • FLAVA: A Foundational Language And Vision Alignment Model [63.2]
    最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。 このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクにおいて、印象的なパフォーマンスを示す。
    論文  参考訳(メタデータ)  参考訳(全文)  (Wed, 8 Dec 2021 18:59:16 GMT)
    • 公開データセットを用いて言語/画像の事前学習モデルを構築。類似モデルよりも少ないデータ量であるが優れたパフォーマンスを達成とのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です