FLAVA(Foundational Language And Vision Alignment): 言語と画像を結びつける基礎モデル

FLAVA: A Foundational Language And Vision Alignment Model [63.2]
最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクにおいて、印象的なパフォーマンスを示す。
論文参考訳（メタデータ）参考訳（全文） (Wed, 8 Dec 2021 18:59:16 GMT)
- 公開データセットを用いて言語/画像の事前学習モデルを構築。類似モデルよりも少ないデータ量であるが優れたパフォーマンスを達成とのこと。

コメントを残す

コメントを残す コメントをキャンセル