SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

  • SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.2]
    SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。 データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
    論文  参考訳(メタデータ)   (Fri, 12 Jul 2024 16:37:59 GMT)
  • 科学論文を対象としたマルチモーダルなQAデータセット。zero shotな性能ではものにもよるがGPT-4oが優れているよう。「Furthermore, fine-tuning two open-source systems, LLaVA and InstructBLIP, on the SPIQA training set results in significant improvements over zero-shot evaluations, indicating promising avenues for designing specialized systems for scientific QA in the future.」とfine tuningの有効性を示唆しているのも興味深い。
  • リポジトリはGitHub – google/spiqa

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication

  • A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication [15.9]
    深層生成モデルは様々なコンピュータビジョンアプリケーションで顕著な性能を示した。 これらのモデルは、誤情報、偽造、著作権侵害などの悪意ある目的のために使用されることがある。 本稿では,AI生成したビジュアルメディアに対する防衛研究の体系的かつタイムリーなレビューを行う。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 09:46:02 GMT)
  • 「This survey provides a comprehensive overview of research on proactive and passive defenses against AI-generated visual media, covering the mainstream defense tasks of detection, disruption, and authentication, as well as their trustworthiness.」というサーベイ

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

  • Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.8]
    我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。 これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
    論文  参考訳(メタデータ)   (Mon, 15 Jul 2024 17:54:37 GMT)
  • マルチモーダルエージェントのためのベンチマーク、対象タスクは「494 real-world tasks across the complete data science and engineering workflows (from data warehousing to orchestration)」とこれが自動化されると影響は少なくなさそう(ただしAutoMLなど過去から自動化を目指してきた業務ではある)
  • 「The most advanced VLM (GPT-4V) still performs poorly on Spider2-V (achieving 14.0% success rate), rendering it a very challenging benchmark.」と最新モデルでもスコアはかなり悪い。
  • リポジトリはSpider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

PaliGemma、ChartGemma

  • PaliGemma: A versatile 3B VLM for transfer [112.4]
    PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。 我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。
    論文  参考訳(メタデータ)   (Wed, 10 Jul 2024 14:57:46 GMT)
  • PaliGemma – Google’s Cutting-Edge Open Vision Language Model (huggingface.co)の論文、SigLIP-So400m & Gemma-2B
  • ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
    本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。 基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。 我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
    論文  参考訳(メタデータ)   (Thu, 04 Jul 2024 22:16:40 GMT)
  • PaliGemmaのチャート対応バージョン
  • リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

  • MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
    MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
    論文  参考訳(メタデータ)   (Mon, 01 Jul 2024 17:59:26 GMT)
  • マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR+LLMを超えている。
  • リポジトリはMMLongBench-Doc (mayubo2333.github.io)

A Survey on Safe Multi-Modal Learning System

  • A Survey on Safe Multi-Modal Learning System [10.9]
    マルチモーダル学習システム(MMLS)は、様々なモーダル入力から情報を処理し統合する能力で注目を集めている。 安全に関する体系的な研究が欠如していることは、この分野の進歩にとって重要な障壁である。 MMLSの安全性を体系的に分類し評価する最初の分類法を提案する。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 05:42:43 GMT)
  • マルチモーダルなシステムに対する安全性のサーベイ
  • この手の対策が必要になってきたことに進化を感じる

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities 

  • Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [31.0]
    マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。 ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。 この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
    論文  参考訳(メタデータ)   (Thu, 20 Jun 2024 17:59:45 GMT)
  • MLLMでstep by stepに相当する処理を行うため仮想的なホワイトボードを使うという論文、「We accomplish this by generating code that can create a visual, then returning the visual back to the model for further reasoning.」という感じでコードを作成し画像でフィードバックするアプローチ。
  • 有効な場面はありそう。名前のインパクトがすごい。

OpenVLA

  • OpenVLA: An Open-Source Vision-Language-Action Model [131.7]
    我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。 モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
    論文  参考訳(メタデータ)   (Thu, 13 Jun 2024 15:46:55 GMT)
  • オープンなVision-Language-Actionモデル、「Given an image observation and a language instruction, the model predicts 7-dimensional robot control actions.」という設定でベースはLlama-2。PEFTの効果など非常に参考なる。
  • プロジェクトサイトはOpenVLA: An Open-Source Vision-Language-Action Model

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

  • MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.5]
    MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。 この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
    論文  参考訳(メタデータ)   (Wed, 12 Jun 2024 16:54:54 GMT)
  • 世界モデルとしてのMLLM(例えば物理現象をシミュレートできるか?など)を評価するためのベンチマーク。Leader boardからはGPT-4Vが首位でGeminiProが2位になっている。一方で「Even the best performer, GPT-4V, can only achieve a 52.30% overall accuracy, and four MLLMs particularly trained on videos perform worse than random chance.」という指摘も。MLLMないしビデオ合成系のモデルがWorld modelになりえるかは賛否両論あるが、注目を集めている分野。
  • リポジトリはMMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos (mmworld-bench.github.io)