- GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods [62.1]
我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。 1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。 GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (Thu, 5 Jan 2023 03:43:45 GMT) - 結婚式や祭りのような地域特性のある画像をうまく取り扱えるVLモデルの提案。GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA – arXiv最新論文の紹介 (devneko.jp)もあったがこの手の考慮は重要。
- コードなどはリリース予定とのこと。