Flamingo: DeepMindのVisual Language Models(VLM)

Flamingo: a Visual Language Model for Few-Shot Learning [95.9]
この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。
論文参考訳（メタデータ） (Fri, 29 Apr 2022 16:29:01 GMT)
- DeepMindの大規模VLM。下記16タスク全てでfew-shotでのSoTA、および6つのタスクでfine tuning以上の結果を主張。
  - NextQA
  - iVQA
  - Flick30K
  - STAR
  - MSVDQA
  - OKVQA
  - HatefulMemes
  - VizWiz
  - VATEX
  - VQAv2
  - COCO
  - VisDial
  - TextVQA
  - MSRVTTQA
  - YouCook2
  - RareAct　※fine tuningの結果が得られていないため論文中では省略とのこと

コメントを残す

コメントを残す コメントをキャンセル