- Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs [61.0]
大規模視覚言語モデル(LVLM)は、クロスモーダルタスクにおいて顕著な能力を示すが、重大な安全性上の課題に直面している。 既存のベンチマークは、労働集約的な建設プロセス、静的な複雑さ、限定的な差別力によって妨げられている。 LVLMの安全性ベンチマークのための最初の自動システムであるVLSafetyBencherを提案する。
論文 参考訳(メタデータ) (Tue, 27 Jan 2026 11:51:30 GMT) - LVLMのための安全性評価ベンチマーク、「Ex-eriments validates that VLSafetyBencher can construct high-quality safety benchmarks within one week at a minimal cost. The generated benchmark effectively distinguish safety, with a safety rate disparity of 70% between the most and least safe models.」とのこと。
- この手のベンチマークではGPT系モデルの優位性が目立つことが多いが、本論文ではClaude-Sonnet-4がトップ。LVLMとしての評価だからだろうか。
タグ: MLLM
CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding
- CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding [71.9]
マルチベクトル埋め込み構築のための自動回帰生成手法CausalEmbedを提案する。 コントラストトレーニング中に反復的マージン損失を導入することで、CausalEmbedは埋め込みモデルにコンパクトでよく構造化された表現を学ぶことを奨励する。 本手法は,数十個の視覚トークンを用いた効率的なVDR処理を実現し,トークン数を30~15倍削減する。
論文 参考訳(メタデータ) (Thu, 29 Jan 2026 04:47:27 GMT) - 「In this paper, we propose a novel paradigm, CAUSALEMBED, which generates multi-vector embeddings in an auto-regressive manner with significantly shorter sequence lengths. Extensive experiments demonstrate that CAUSALEMBED outperforms pruning-based baselines, achieving superior performance at an extreme 30× compression ratio.」とARモデルを活用した効率的なEmbedding手法の提案。
Ministral 3, Molmo2, STEP3-VL
OpenAIの広告モデル(ChatGPT Go が登場、世界中で利用可能に | OpenAI)、LLMインタフェースのオープンな仕様(Open Responses、XユーザーのOpenAI Developersさん: 「Today we’re announcing Open Responses: an open-source spec for building multi-provider, interoperable LLM interfaces built on top of the original OpenAI Responses API. ✅ Multi-provider by default ✅ Useful for real-world workflows ✅ Extensible without fragmentation Build https://t.co/SJiBFx1BOF」 / X)、AnthropicのCowork(Introducing Cowork | Claude)、Appleの基盤モデルにGeminiが採用?などビジネス的に興味深いニュースが多かった。
オープンなモデルだとMinistral3やMolmo2、STEP3-VL-10BとMLLM関連の論文発表があった。いずれもサイズと性能のバランスが良く、期待が持てる。
広範なモデルを検証しているA Safety Reportにも要注目。
- Ministral 3 [159.0]
Ministral 3は、計算およびメモリ制約のあるアプリケーションのためのパラメータ効率の高い高密度言語モデルのファミリーである。 汎用目的のための事前訓練されたベースモデル、微調整された命令モデル、複雑な問題解決のための推論モデルである。 各モデルはイメージ理解機能を備えており、すべてApache 2.0ライセンスで提供されている。
論文 参考訳(メタデータ) (Tue, 13 Jan 2026 14:06:03 GMT) - Mistralからの発表。「A key component of Ministral 3 is our Cascade Distillation training strategy, an iterative pruning and distillation method, which progressively transfers pretrained knowledge from a large parent model down to a family of compact children models. Our recipe allows us to achieve performance that is competitive with models which had a much larger training budget.」とのこと
- プロジェクトサイトはIntroducing Mistral 3 | Mistral AI、モデルはMinistral 3 – a mistralai Collection
- Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding [73.5]
Molmo2はビデオ言語モデル(VLM)の新たなファミリーであり、オープンソースモデルの中でも最先端の製品である。 単一画像、マルチイメージ、ビデオタスクにおけるポイント駆動グラウンドリングにおいて、例外的な新機能を示す。 私たちの最高の8Bモデルは、ショートビデオ、カウント、キャプションでオープンウェイトとデータモデルのクラスで他よりも優れており、ロングビデオでは競争力があります。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 17:27:44 GMT) - Ai2の最新VLM、ver1から大きく性能を上げている。
- リポジトリはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model、モデルはGitHub – allenai/molmo2: Code for the Molmo2 Vision-Language Model
- STEP3-VL-10B Technical Report [115.9]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。 そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。 MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 17:06:04 GMT) - 小規模ながら強力な性能のVLM。Qwen3 VL 235B A22に匹敵と主張。
- プロジェクトサイトはStep3-VL-10B: Compact Yet Frontier Multimodal Intelligence、モデルはstepfun-ai/Step3-VL-10B · Hugging Face
- A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4]
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5。 ベンチマーク評価,対角評価,多言語評価,コンプライアンス評価を統合した統一プロトコルを用いて,言語,視覚言語,画像生成設定の各モデルを評価する。
論文 参考訳(メタデータ) (Thu, 15 Jan 2026 15:52:52 GMT) - 「In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We eval- uate each model across language, vision–language, and image generation settings us- ing a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation.」とMLLMや画像生成モデルに関する安全性評価。VLMとしてはGPT-5.2のスコアはさすがといったところ。
- プロジェクトサイトはSafety Report: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Nano Banana Pro, Seedream 4.5
JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
- JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation [108.2]
本稿では,JAV(Joint Audio-Video)理解と生成のための,最初の統合マルチモーダル言語モデル(MLLM)であるJavisGについて述べる。 JavisG は Encoder-LLM-decoder アーキテクチャを採用し、SyncFusion モジュールを時時空間の大規模なオーディオビデオ融合用に備えている。 JAVPTの理解と生成ベンチマークの実験は、JavisGPTが既存のMLより優れていることを示している。
論文 参考訳(メタデータ) (Sun, 28 Dec 2025 12:25:43 GMT) - 「JavisGPT adopts an encoder-LLM-decoder architecture (ref. Fig 2), with Qwen2.5 [88] as the LLM backbone. The visual encoder is inherited from Qwen2.5-VL [5], and the audio encoder is based on BEATs [10]. Audio and video features, along with user prompts and learnable JavisQuery tokens, are passed to the LLM. To enable fine-grained spatiotemporal alignment, we propose a dedicated SyncFusion module that fuses audio and video representations into synchronized SyncAV tokens for unified comprehension. At the output stage, the LLM generates textual responses along with JavisCond tokens, which encode contextual semantics and serve as conditioning inputs for a pretrained JAV-DiT generator [40]. We choose JavisDiT for its generation quality and flexibility, and incorporate hierarchical JavisQueries to provide spatiotemporal priors, further enhancing synchronization in audio-video generation.」という設計のマルチモーダルモデル。
- プロジェクトサイトはJavisGPT
Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking
- Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking [53.8]
複雑な推論問題は、テキストに明示的にエンコードされていない暗黙の空間的、幾何学的、構造的関係を含むことが多い。 FIGRを導入し、エンドツーエンドの強化学習を通して、アクティブな視覚的思考を多ターン推論に統合する。
論文 参考訳(メタデータ) (Tue, 30 Dec 2025 15:39:11 GMT) - 「Our core idea is to embed visual construction into a model’s reasoning trajectory. Concretely, for each problem input, FIGR enters a multi-turn reasoning loop in which it can interleave pure textual rea- soning and executable code to generate diagrams – much like a human drawing intermediate sketches while reasoning.」というアプローチによる推論過程での図形データの活用手法の提案。
- リポジトリはGitHub – chenmeiqii/FIGR: Official implementation of “Figure It Out: Improve the Frontier of Reasoning with Active Visual Thinking”
SpatialTree: How Spatial Abilities Branch Out in MLLMs
- SpatialTree: How Spatial Abilities Branch Out in MLLMs [109.3]
低レベル知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェント能力(L4)の4つのレベルに空間能力を整理する認知科学に着想を得た階層を導入する。 複雑な推論には役立ちますが、直感的な知覚を損ないます。 本稿では,不必要な熟考を抑制するシンプルな自己思考戦略を提案する。
論文 参考訳(メタデータ) (Tue, 23 Dec 2025 18:59:46 GMT) - 「Spatial abilities refer to the capacity to perceive, understand, reason about, and interact with 2D and 3D space, a long-standing topic in cognitive science [13, 45, 48]. In multimodal large language models (MLLMs), these abilities form the cornerstone of Spatial Intelligence (SI), yet remain challenging to study systematically due to their inherent complexity and broad scope [31, 63].」とのことでSpatial abilitiesを測るベンチマークを構築している。4レベルは下記の通り。
- L1 Perception: This level focuses on native perception of space, capturing raw geometric and physical attributes such as size, distance, and motion, without relying on language or symbolic reasoning.
- L2 Mental Mapping: This level maps spatial perception to language, grounding spatial concepts in linguistic semantics and forming language-structured spatial memory.
- L3 Mental Simulation: This level supports internal reasoning about space, enabling mental simulation, including causal reasoning about dynamics, relational and geometric problem solving, and sequential planning for actions and navigation.
- L4 Spatial Agent: This level executes actions in space, integrating perception, language, and reasoning to interact with the environment, interpret feedback, and complete long-horizon spatial tasks.
- リポジトリはSpatialTree – How Spatial Abilities Branch Out in MLLMs、リーダーボードのモデル群が若干古い。。
EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs
- EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs [53.4]
EventBenchは8つのタスクメトリクスと大規模なイベントストリームデータセットを提供するベンチマークである。 我々は、GPT-5やGemini-2.5 Proのような最先端のクローズドソースモデル、Qwen2.5-VLやInternVL3といったオープンソースモデル、EventGPTのようなイベントベースのMLLMを評価した。
論文 参考訳(メタデータ) (Sun, 23 Nov 2025 13:39:01 GMT) - MLLMのイベントに対する評価(understanding (i.e., detailed understanding), recognition (i.e., action recognition, gesture recognition, and event OCR)など)ベンチマーク。
- リポジトリはEventBench
Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks
- Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.2]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。 我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。 我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (Wed, 29 Oct 2025 17:55:43 GMT) - MLLMのサーベイ。
- リポジトリはGitHub – zhengxuJosh/Awesome-Multimodal-Spatial-Reasoning: This repository collects and organises state‑of‑the‑art papers on spatial reasoning for Multimodal Vision–Language Models (MVLMs).
VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents
- VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.7]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。 VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか? 我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。 エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (Sun, 19 Oct 2025 16:05:07 GMT) - 「How can we effectively teach VLMs to build internal world models through explicit visual state reasoning?」、「Vision-language Model (VLM) agentic tasks are inherently complex due to the challenges in understanding visual states, which often are partial and noisy Observations, fundamentally reframing the problem from an Markov Decision Process (MDP) to a more challenging Partially Observable Markov Decision Process (POMDP).」というモチベーションからWorld Modelの構築を推進するためのフレームワークを提案。「To optimize an agent’s world model reasoning, we propose turn-level WorldModeling Reward for a dense turn-level reward to evaluate the accuracy of the agent’s internal state simulation against ground-truth; to solve the critical challenge of long-horizon credit assignment, we propose Bi-Level GAE to first computes the value of an entire turn’s reasoning before propagating that credit precisely to the individual tokens. Our VAGEN framework significantly enhances task performance and visual reasoning quality for VLM in agentic tasks.」
- プロジェクトサイトはVAGEN – VLM Agent Training
Explain Before You Answer: A Survey on Compositional Visual Reasoning
- Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.3]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。 本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。 次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (Sun, 24 Aug 2025 11:01:51 GMT) - Compositional visual reasoning に関するサーベイ。