2024年7月15日 – arXiv最新論文の紹介

PaliGemma、ChartGemma

PaliGemma: A versatile 3B VLM for transfer [112.4]
PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。
論文参考訳（メタデータ） (Wed, 10 Jul 2024 14:57:46 GMT)
PaliGemma – Google’s Cutting-Edge Open Vision Language Model (huggingface.co)の論文、SigLIP-So400m & Gemma-2B

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (Thu, 04 Jul 2024 22:16:40 GMT)
PaliGemmaのチャート対応バージョン
リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404

Large Language Models Understand Layouts

Large Language Models Understand Layouts [6.7]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文参考訳（メタデータ） (Mon, 08 Jul 2024 09:03:12 GMT)
LLM のテキストレイアウト理解能力を解析、かなりの能力があることを示した論文。本来、Document Understandingが必要な問題をシンプルにテキスト表現に落とし込んで解けると面白い。
リポジトリはGitHub – liweim/TextLayoutLLM

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文参考訳（メタデータ） (Mon, 01 Jul 2024 17:59:26 GMT)
マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR＋LLMを超えている。
リポジトリはMMLongBench-Doc (mayubo2333.github.io)