Harnessing Webpage UIs for Text-Rich Visual Understanding 

  • Harnessing Webpage UIs for Text-Rich Visual Understanding [112.0]
    テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。 これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。 我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
    論文  参考訳(メタデータ)   (Thu, 17 Oct 2024 17:48:54 GMT)
  • 「We introduce MultiUI, a dataset containing 7.3 million samples from 1 million websites, covering diverse multimodal tasks and UI layouts.」というデータセットの構築と、それらデータを用いたMLLMの構築。
  • プロジェクトサイトはMultiUI、リポジトリはGitHub – neulab/MultiUI: Code for Paper: Harnessing Webpage Uis For Text Rich Visual Understanding

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models

  • MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.2]
    MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。 その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
    論文  参考訳(メタデータ)   (Thu, 10 Oct 2024 17:55:02 GMT)
  • マルチモーダルなRAGのベンチマーク、様々なモデルのスコア一覧表もとても参考になる。
  • リポジトリはMRAG-Bench (mragbench.github.io)

BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data

  • BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.9]
    大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
    論文  参考訳(メタデータ)   (Tue, 01 Oct 2024 15:11:24 GMT)
  • マルチモーダル、かつ、マルチストラクチャなデータを取り扱うタスクに対するベンチマークの提案。GPT-4oでもスコアは相当低いが、OpenAI o1に向くタスクな気もしていてo1を含むシステムで試してみたいところ。
  • リポジトリはGitHub – FFD8FFE/babelbench

Emu3: Next-Token Prediction is All You Need

  • Emu3: Next-Token Prediction is All You Need [45.1]
    Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。 Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。 また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
    論文  参考訳(メタデータ)   (Fri, 27 Sep 2024 16:06:11 GMT)
  • 「Our results provide compelling evidence that nexttoken prediction can serve as a powerful paradigm for multimodal models, scaling beyond language models and delivering state-of-the-art performance across diverse tasks, including challenging video generation.」という、シンプルかつ強い主張
  • リポジトリはGitHub – baaivision/Emu3: Next-Token Prediction is All You Need

Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective

  • Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective [15.6]
    マルチモーダル感情コンピューティング(MAC)は、人間の行動や意図の分析に広く応用されているため、注目を集めている。 本調査は,NLPの観点からのマルチモーダル感情コンピューティングの最近のトレンドを4つのホットタスクにまとめる。 本調査の目的は、マルチモーダル感情研究の現在の展望を探求し、開発動向を特定し、様々なタスクにおける類似点と相違点を明らかにすることである。
    論文  参考訳(メタデータ)   (Wed, 11 Sep 2024 16:24:06 GMT)
  • Multimodal affective computingのサーベイ。主なタスクはMultimodal Sentiment Analysis (MSA), Multimodal Emotion Recognition in Conversation (MERC), Multimodal Aspect Based Sentiment Analysis (MABSA), Multimodal Multilabel Emotion Recognition (MMER)とのこと。
  • 論文リポジトリはGitHub – LeMei/Multimodal-Affective-Computing-Survey

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

  • MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.4]
    我々は、画像テキストの命令データをキュレートするための新しいフレームワークであるMMEvolを提案する。 MMEvolは、微粒な知覚の進化、認知的推論の進化、相互作用の進化を組み合わせている。 提案手法は,3.1ポイントの平均精度向上を実現し,13の視覚言語タスクのうち9つで最先端(SOTA)性能に達する。
    論文  参考訳(メタデータ)   (Mon, 9 Sep 2024 17:44:00 GMT)
  • 「a novel multimodal instruction data evolution framework that combines fine-grained perception evolution, cognitive reasoning evolution, and interaction evolution.」、マルチモーダルな点が特徴的。効果は「The data evolved through three rounds of evolution is used to train a new model, demonstrating state-of-the-art (SOTA) performance across a comprehensive set of benchmarks.」としている。
  • テキストや数学的問題を超えて、マルチモーダルな文脈でも有効性が確かめられているのは面白いのと、今後の取り組みで画像生成モデルとの統合に言及があった点も興味深い。
  • プロジェクトサイトはMMEvol: Welcome (rainbowluocs.github.io)

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Knowledge-Aware Reasoning over Multimodal Semi-structured Tables

  • Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.2]
    本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。 この目的のために設計された新しいデータセットであるMMTabQAを紹介する。 我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
    論文  参考訳(メタデータ)   (Sun, 25 Aug 2024 15:17:43 GMT)
  • マルチモーダルなQAデータセットの提案。データ公開予定としているが現時点ではリポジトリ等へのリンクはなさそう。
  • 「Closed-source models like GPT-4o and Gemini1.5 Flash outperform open-source models in multimodal tasks due to advanced training techniques and better integration of visual and textual data.」、「In text-only tasks, the performance gap between open-source and closed-source models narrows significantly, with open-source models like Llama-3 providing competitive results.」とのことで現時点ではマルチモーダルにおいてオープンなモデルは苦戦しているよう。

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey 

  • Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey [42.1]
    我々は,データセット,タスク指向手法,普遍的基礎モデルの観点から,医療マルチモーダル学習の現状を包括的に調査する。 我々は、データや技術からパフォーマンス、倫理に至るまで、医療における高度な技術の本当の影響を探るため、5つの課題から提案された質問について議論する。 答えは、現在の技術は普遍的な知性を達成しておらず、実行すべき重要な道程がまだ残っているということだ。
    論文  参考訳(メタデータ)   (Fri, 23 Aug 2024 07:31:01 GMT)
  • マルチモーダルな医療モデルの現状についてサーベイした論文。universal intellegenceというタイトルが印象深い。現実的にはまだまだとはいえ、このような言葉がつかえるようになってきたのは大きな進歩のように思う。
  • 「The answer is that current technologies have NOT achieved universal intelligence and there remains a significant journey to undertake.」と結論。
  • リポジトリはGitHub – DeepReasoning/aihealth

MoExtend: Tuning New Experts for Modality and Task Extension