MLLM – ページ 7 – arXiv最新論文の紹介

VITA: Towards Open-Source Interactive Omni Multimodal LLM

VITA: Towards Open-Source Interactive Omni Multimodal LLM [106.5]
ビデオ, 画像, テキスト, 音声の同時処理と解析に適応した, MLLM (Multimodal Large Language Model) を初めて導入したVITAについて紹介する。 VITAは、多言語、視覚、および音声理解の堅牢な基礎機能を示す。我々はMLLMにおける非覚醒相互作用と音声割り込みを利用する最初の人物である。
論文参考訳（メタデータ） (Fri, 09 Aug 2024 17:59:49 GMT)
オープンなMLLMを目指す取り組み、Mixtral 8×7Bベース
プロジェクトサイトはHello VITA (vita-home.github.io)、リポジトリはGitHub – VITA-MLLM/VITA: ✨✨VITA: Towards Open-Source Interactive Omni Multimodal LLM

A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks

A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.5]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (Fri, 2 Aug 2024 15:14:53 GMT)
マルチモーダルなLLMに関するサーベイ。多くの研究機関が取り組んでおり成果も多数。
図がとても参考になる。

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.2]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文参考訳（メタデータ） (Fri, 12 Jul 2024 16:37:59 GMT)
科学論文を対象としたマルチモーダルなQAデータセット。zero shotな性能ではものにもよるがGPT-4oが優れているよう。「Furthermore, fine-tuning two open-source systems, LLaVA and InstructBLIP, on the SPIQA training set results in significant improvements over zero-shot evaluations, indicating promising avenues for designing specialized systems for scientific QA in the future.」とfine tuningの有効性を示唆しているのも興味深い。
リポジトリはGitHub – google/spiqa

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。 LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文参考訳（メタデータ） (Wed, 17 Jul 2024 17:51:53 GMT)
マルチモーダルなLLM用のベンチマーク。LiveBenchではGPT4 TurboがGPT4oより高スコアとなっている。
リポジトリはGitHub – EvolvingLMMs-Lab/lmms-eval: Accelerating the development of large multimodal models (LMMs) with lmms-eval、リーダーボードはLiveBench – a Hugging Face Space by lmms-lab

A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication

A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication [15.9]
深層生成モデルは様々なコンピュータビジョンアプリケーションで顕著な性能を示した。これらのモデルは、誤情報、偽造、著作権侵害などの悪意ある目的のために使用されることがある。本稿では,AI生成したビジュアルメディアに対する防衛研究の体系的かつタイムリーなレビューを行う。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 09:46:02 GMT)
「This survey provides a comprehensive overview of research on proactive and passive defenses against AI-generated visual media, covering the mainstream defense tasks of detection, disruption, and authentication, as well as their trustworthiness.」というサーベイ

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.8]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (Mon, 15 Jul 2024 17:54:37 GMT)
マルチモーダルエージェントのためのベンチマーク、対象タスクは「494 real-world tasks across the complete data science and engineering workflows (from data warehousing to orchestration)」とこれが自動化されると影響は少なくなさそう（ただしAutoMLなど過去から自動化を目指してきた業務ではある）
「The most advanced VLM (GPT-4V) still performs poorly on Spider2-V (achieving 14.0% success rate), rendering it a very challenging benchmark.」と最新モデルでもスコアはかなり悪い。
リポジトリはSpider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

PaliGemma、ChartGemma

PaliGemma: A versatile 3B VLM for transfer [112.4]
PaliGemmaはオープンビジョン言語モデル(VLM)であり、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルに基づいている。我々は、標準的なVLMベンチマークを含む約40のタスクに対して、PaliGemmaを評価するとともに、リモートセンシングやセグメンテーションといった専門的なタスクも評価する。
論文参考訳（メタデータ） (Wed, 10 Jul 2024 14:57:46 GMT)
PaliGemma – Google’s Cutting-Edge Open Vision Language Model (huggingface.co)の論文、SigLIP-So400m & Gemma-2B

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (Thu, 04 Jul 2024 22:16:40 GMT)
PaliGemmaのチャート対応バージョン
リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文参考訳（メタデータ） (Mon, 01 Jul 2024 17:59:26 GMT)
マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR＋LLMを超えている。
リポジトリはMMLongBench-Doc (mayubo2333.github.io)

A Survey on Safe Multi-Modal Learning System

A Survey on Safe Multi-Modal Learning System [10.9]
マルチモーダル学習システム(MMLS)は、様々なモーダル入力から情報を処理し統合する能力で注目を集めている。安全に関する体系的な研究が欠如していることは、この分野の進歩にとって重要な障壁である。 MMLSの安全性を体系的に分類し評価する最初の分類法を提案する。
論文参考訳（メタデータ） (Tue, 25 Jun 2024 05:42:43 GMT)
マルチモーダルなシステムに対する安全性のサーベイ
この手の対策が必要になってきたことに進化を感じる

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [31.0]
マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
論文参考訳（メタデータ） (Thu, 20 Jun 2024 17:59:45 GMT)
MLLMでstep by stepに相当する処理を行うため仮想的なホワイトボードを使うという論文、「We accomplish this by generating code that can create a visual, then returning the visual back to the model for further reasoning.」という感じでコードを作成し画像でフィードバックするアプローチ。
有効な場面はありそう。名前のインパクトがすごい。

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31