GIVL: Geographical Inclusivity of Vision-Language

  • GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods [62.1]
    我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。 1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。 GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 03:43:45 GMT)
  • 結婚式や祭りのような地域特性のある画像をうまく取り扱えるVLモデルの提案。GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA – arXiv最新論文の紹介 (devneko.jp)もあったがこの手の考慮は重要。
  • コードなどはリリース予定とのこと。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です