GIVL: Geographical Inclusivity of Vision-Language

  • GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods [62.1]
    我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。 1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。 GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
    論文  参考訳(メタデータ)   (Thu, 5 Jan 2023 03:43:45 GMT)
  • 結婚式や祭りのような地域特性のある画像をうまく取り扱えるVLモデルの提案。GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset): 地域特性を反映したVQA – arXiv最新論文の紹介 (devneko.jp)もあったがこの手の考慮は重要。
  • コードなどはリリース予定とのこと。

Fruit Ripeness Classification

  • Fruit Ripeness Classification: a Survey [59.1]
    食品を格付けするための特徴記述子を多用する多くの自動的手法が提案されている。 機械学習とディープラーニング技術がトップパフォーマンスの手法を支配している。 ディープラーニングは生のデータで操作できるため、複雑なエンジニアリング機能を計算する必要がなくなる。
    論文  参考訳(メタデータ)   (Thu, 29 Dec 2022 19:32:20 GMT)
  • 果物の熟成度合いを判定するAIに関するサーベイ。(当たり前かもだが)この分野にもDeepLearningが浸透していることがわかる。