- Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning [59.5]
我々は,Multimodal Large Language Models (MLLM) の科学的認知能力を評価するために設計された,Scientists’ First Exam (SFE) ベンチマークを提示する。 SFEは3つの質問タイプにまたがる830のエキスパート検証VQAペアで構成され、5つの高価値分野にまたがる66のマルチモーダルタスクにまたがる。 実験の結果、現在最先端のGPT-o3とInternVL-3はSFEでわずか34.08%と26.52%しか達成できず、MLLMが科学領域で改善する余地があることが明らかになった。
論文 参考訳(メタデータ) (Thu, 12 Jun 2025 09:29:16 GMT) - 「we introduce the Scientists’ First Exam (SFE) benchmark, designed to comprehensively evaluate the scientific cognitive capabilities of MLLMs through three cognitive levels (cog-levels): Scientific Signal Perception (L1) characterizes the capacity to discern critical components within visualizations of scientific raw data; Scientific Attribute Understanding (L2) demonstrates the ability to interpret domain-expert knowledge; Scientific Comparative Reasoning (L3) manifests the ability to derive phenomenological insights through structured comparison of multiple scientific visual sources. SFE encompasses 66 expert-curated, high-value multimodal tasks across five disciplines: Astronomy, Chemistry, Earth, Life, and Materials Sciences (Fig. 1b).」というベンチマーク。MLLM向け、VQAとして構成されている。
- リポジトリはPrismaX/SFE · Datasets at Hugging Face、プロジェクトサイトはPrismaX
タグ: MLLM
PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding
- PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding [114.5]
画素レベルの部分接地のために設計された LMM ベンチマークである PartONOMY を紹介する。 我々はいくつかの部分中心LMMをトレーニングし、セグメント化トークンの代わりにスパンタグを使用する新しいセグメント化LMMであるPLUMを提案する。 我々の研究は、LMMにおけるきめ細かい基礎的な視覚的理解を実現するための新たな道を開く。
論文 参考訳(メタデータ) (Tue, 27 May 2025 06:03:56 GMT) - 「Unfortunately, Large Multimodal Models (LMMs), the backbones of today’s multimodal systems, lack strong part recognition abilities 」とのことで、それを検証するベンチマークと改善モデルPLUM: Part-Level Understanding LMMを提案。
- リポジトリはGitHub – AnselBlume/partonomy: Repository for “Partonomy: Large Multimodal Models with Part-Level Visual Understanding”
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning
- Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning [122.8]
我々は、視覚的文書理解のために、視覚的に基底付けられたCoT推論を利用するように設計されたマルチモーダル推論フレームワークであるPoint-RFTを紹介した。 提案手法は2つの段階から構成される: まず、71Kの多様な視覚的推論問題からなるキュレートされたデータセットを用いてフォーマットの微調整を行い、それぞれが対応する視覚的要素に明示的に基づいた詳細なステップ・バイ・ステップの合理性でアノテートする。 ChartQAでは,テキストベースCoTのみに依存した強化微調整による精度83.92%を超え,精度を70.88%(言語微細化ベースライン)から90.04%に向上させる。
論文 参考訳(メタデータ) (Mon, 26 May 2025 08:54:14 GMT) - MLLMに対するPost training、マルチモーダルなLRM化につながる成果
MLLMs are Deeply Affected by Modality Bias
- MLLMs are Deeply Affected by Modality Bias [158.6]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。 本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (Sat, 24 May 2025 11:49:31 GMT) - 「Modality bias arises when certain modalities dominate the learning process, while others are underutilized or contribute less effectively」というモダリティバイアスの検証。
- 「From a model learning perspective, [49] identifies the differing convergence rates of modalities as a core cause of modality bias. The varying levels of difficulty in fitting category labels across different modalities contribute to this disparity.」というのは直観的にもそうだと思いつつ、解消するのは大変そう。「百聞は一見に如かず」とかいうが人間はどうやって対応しているんだろう。
Seed1.5-VL, Qwen3, MiMo, MiniMax-Speech, Aya Vision, BLIP3-o
BytedanceのSeek 1.5 VL、AlibabaのQwen3, XiaomiのMiMo、MiniMaxのMiniMaz-Speechと先週は中国の研究機関からの論文公開が多かった。また、CohereのAya Vision、SalesforceのBLIP3-o論文の公開もあり、LLM、MLLM関連はOpenAI一強という状態ではなくなっている。著者リストを見ると有力な研究者が複数所属する大規模なチームでモデル構築を行っているように見える。
- Seed1.5-VL Technical Report [237.8]
Seed1.5-VLは、汎用マルチモーダル理解と推論を促進するために設計されたビジョン言語基盤モデルである。 幅広いパブリックなVLMベンチマークと内部評価スイートで強力なパフォーマンスを提供する。 GUI制御やゲームプレイといったエージェント中心のタスクでは、Seed1.5-VLはOpenAI CUAやClaude 3.7など、主要なマルチモーダルシステムより優れている。
論文 参考訳(メタデータ) (Sun, 11 May 2025 17:28:30 GMT) - 「Despite its relatively compact architecture, it delivers strong performance across a wide spectrum of public VLM benchmarks and internal evaluation suites, achieving the state-of-the-art performance on 38 out of 60 public benchmarks. Moreover, in agent-centric tasks such as GUI control and gameplay, Seed1.5-VL outperforms leading multimodal systems, including OpenAI CUA and Claude 3.7.」を主張するMLLM
- Qwen3 Technical Report [138.0]
Qwenモデルファミリの最新バージョンであるQwen3を紹介します。 Qwen3は、性能、効率、多言語機能を向上させるために設計された一連の大規模言語モデル(LLM)から構成されている。
論文 参考訳(メタデータ) (Wed, 14 May 2025 13:41:34 GMT) - Qwen(Qwen3, Phi-4 reasoning, MiMo 7B, OLMo2 1B, Mellum 4B – arXiv最新論文の紹介)に関してarXivに投稿された論文
- リポジトリはGitHub – QwenLM/Qwen3: Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud.
- MiMo: Unlocking the Reasoning Potential of Language Model — From Pretraining to Posttraining [66.1]
提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。 MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。 最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (Mon, 12 May 2025 14:30:11 GMT) - リポジトリはGitHub – XiaomiMiMo/MiMo: MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining
- Aya Vision: Advancing the Frontier of Multilingual Multimodality [16.0]
高品質で多様な多言語マルチモーダル命令データをキュレートする合成アノテーションフレームワークを開発した。 また,破滅的忘れを緩和するクロスモーダルモデルマージ手法を提案する。 我々の研究は、マルチモーダルフロンティアにおける多言語的な進歩を前進させ、計算の必要性を効果的に曲げる技術に関する洞察を提供する。
論文 参考訳(メタデータ) (Tue, 13 May 2025 17:03:48 GMT) - リポジトリはCohere Labs Aya Vision – a CohereLabs Collection
- BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.2]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。 画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。 革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (Wed, 14 May 2025 17:11:07 GMT) - リポジトリはGitHub – JiuhaiChen/BLIP3o、BLIP3o/BLIP3o-Model · Hugging Face
EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning
- EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning [108.7]
MLLM(Multimodal large language model)は、テキスト、視覚、音声にまたがる高度な認識を持つが、構造化されたクロスモーダル推論に苦慮する。 MLLMにおけるそのような推論を強化する強化学習フレームワークであるEchoInk-R1を紹介する。
論文 参考訳(メタデータ) (Wed, 07 May 2025 17:59:49 GMT) - マルチモーダルなReasoningモデル構築フレームワークの提案。「we adopt the Group Relative Policy Optimiza- tion (GRPO) reinforcement learning framework to the task of audio-image multiple-choice question answering in mul- timodal large language models (MLLMs)」
- リポジトリはGitHub – HarryHsing/EchoInk: EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning [🔥The Exploration of R1 for General Audio-Visual Reasoning with Qwen2.5-Omni]
On Path to Multimodal Generalist: General-Level and General-Bench
- On Path to Multimodal Generalist: General-Level and General-Bench [154.0]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。 フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。 既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文 参考訳(メタデータ) (Wed, 07 May 2025 17:59:32 GMT) - 「This leads to a critical question: Can we simply assume that higher performance across tasks indicates a stronger MLLM capability, bringing us closer to human-level AI?」に対する評価フレームワーク。自動運転のような大きく5段階のレベル設定を行っている。現時点では「Our evaluation of over 100 existing top-performing LLM/MLLM systems has uncovered critical insights into their capabilities and rankings as multimodal generalists. The most notable finding is that most MLLMs lack the cross-task or cross-modal synergy ability required for higher-level classifications, with even advanced models like GPT-4V and GPT-4o not achieving top ranks.」とのことだが…
- プロジェクトサイトはPath to Multimodal Generalist、リーダーボードはPath to Multimodal Generalist
下記サーベイも注目
- Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.5]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。 人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。 大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (Thu, 08 May 2025 03:35:23 GMT) - リポジトリはGitHub – HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models: The development and future prospects of multimodal reasoning models.
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.0]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。 これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。 ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (Mon, 21 Apr 2025 17:59:53 GMT) - 「We propose a challenging visual reasoning benchmark that is inherently difficult to articulate using language, providing a more rigorous evaluation of the visual reasoning capabilities of MLLMs.」というベンチマークの提案。商用APIのスコアも良くなく、非常に難しいベンチマークになっている。
- リポジトリはVisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models
InternVL3, PerceptionLM, BitNet b1.58 2B4T
公開モデルでも興味深いものが発表されている。InternVL3はVision-Languageモデルで有名なInternVLのver 3、オープンなMLLMのSoTA、78Bと大型で商用モデルとも競合する性能を主張。PerceptionLMはMetaによるオープンなVLM(Perception Language Model (PLM) in a fully open and reproducible framework for transparent research in image and video understanding.)。
上記とは雰囲気が異なるBitNet b1.58 2B4TはBitNetの実装・公開モデル。「The core contribution of this work is to demonstrate that a native 1-bit LLM, when trained effectively at scale, can achieve performance comparable to leading open-weight, full-precision models of similar size across a wide range of tasks.」とのこと。
- InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.5]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。 特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。 オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (Mon, 14 Apr 2025 17:59:25 GMT) - リポジトリはGitHub – OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型、モデルはOpenGVLab/InternVL3-78B · Hugging Face
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.2]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。 モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文 参考訳(メタデータ) (Thu, 17 Apr 2025 17:59:56 GMT) - リポジトリはGitHub – facebookresearch/perception_models: State-of-the-art Image & Video CLIP, Multimodal Large Language Models, and More!、データセットも公開されているPLM Data | Meta AI Research
- BitNet b1.58 2B4T Technical Report [118.8]
BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。 4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (Wed, 16 Apr 2025 17:51:43 GMT) - リポジトリはGitHub – microsoft/BitNet: Official inference framework for 1-bit LLMs、モデルはmicrosoft/bitnet-b1.58-2B-4T · Hugging Face
- デモもある(Bitnet)が、特に日本語性能はかなり物足りない。(日本語になっているだけすごいともいえるが・・・)
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
- SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.9]
ThinkLite-VLはQwen2.5-VL-7Bインストラクションの平均性能を7%向上させる。 私たちのコード、データ、モデルはhttps://github.com/si0wang/ThinkLite-VL.orgで公開されています。
論文 参考訳(メタデータ) (Thu, 10 Apr 2025 17:49:05 GMT) - 効率のよいVision-Languageモデルの推論強化方法の提案。「Our model achieves SoTA performance using only 11k data, and without any additional knowledge distillation.」と使用データが少ない。カギはデータ品質とのこと「Our key insight highlights the critical importance of selecting genuinely challenging examples for Reinforcement Fine-Tuning (RFT).」
- リポジトリはGitHub – si0wang/ThinkLite-VL