- PaliGemma: A versatile 3B VLM for transfer [112.4]
PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。 我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。
論文 参考訳(メタデータ) (Wed, 10 Jul 2024 14:57:46 GMT) - PaliGemma – Google’s Cutting-Edge Open Vision Language Model (huggingface.co)の論文、SigLIP-So400m & Gemma-2B
- ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。 基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。 我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (Thu, 04 Jul 2024 22:16:40 GMT) - PaliGemmaのチャート対応バージョン
- リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404