PaliGemma、ChartGemma

  • PaliGemma: A versatile 3B VLM for transfer [112.4]
    PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。 我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。
    論文  参考訳(メタデータ)   (Wed, 10 Jul 2024 14:57:46 GMT)
  • PaliGemma – Google’s Cutting-Edge Open Vision Language Model (huggingface.co)の論文、SigLIP-So400m & Gemma-2B
  • ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
    本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。 基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。 我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
    論文  参考訳(メタデータ)   (Thu, 04 Jul 2024 22:16:40 GMT)
  • PaliGemmaのチャート対応バージョン
  • リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です