JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

  • JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation [108.2]
    本稿では,JAV(Joint Audio-Video)理解と生成のための,最初の統合マルチモーダル言語モデル(MLLM)であるJavisGについて述べる。 JavisG は Encoder-LLM-decoder アーキテクチャを採用し、SyncFusion モジュールを時時空間の大規模なオーディオビデオ融合用に備えている。 JAVPTの理解と生成ベンチマークの実験は、JavisGPTが既存のMLより優れていることを示している。
    論文  参考訳(メタデータ)   (Sun, 28 Dec 2025 12:25:43 GMT)
  • 「JavisGPT adopts an encoder-LLM-decoder architecture (ref. Fig 2), with Qwen2.5 [88] as the LLM backbone. The visual encoder is inherited from Qwen2.5-VL [5], and the audio encoder is based on BEATs [10]. Audio and video features, along with user prompts and learnable JavisQuery tokens, are passed to the LLM. To enable fine-grained spatiotemporal alignment, we propose a dedicated SyncFusion module that fuses audio and video representations into synchronized SyncAV tokens for unified comprehension. At the output stage, the LLM generates textual responses along with JavisCond tokens, which encode contextual semantics and serve as conditioning inputs for a pretrained JAV-DiT generator [40]. We choose JavisDiT for its generation quality and flexibility, and incorporate hierarchical JavisQueries to provide spatiotemporal priors, further enhancing synchronization in audio-video generation.」という設計のマルチモーダルモデル。
  • プロジェクトサイトはJavisGPT

Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

  • Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking [53.8]
    複雑な推論問題は、テキストに明示的にエンコードされていない暗黙の空間的、幾何学的、構造的関係を含むことが多い。 FIGRを導入し、エンドツーエンドの強化学習を通して、アクティブな視覚的思考を多ターン推論に統合する。
    論文  参考訳(メタデータ)   (Tue, 30 Dec 2025 15:39:11 GMT)
  • 「Our core idea is to embed visual construction into a model’s reasoning trajectory. Concretely, for each problem input, FIGR enters a multi-turn reasoning loop in which it can interleave pure textual rea- soning and executable code to generate diagrams – much like a human drawing intermediate sketches while reasoning.」というアプローチによる推論過程での図形データの活用手法の提案。
  • リポジトリはGitHub – chenmeiqii/FIGR: Official implementation of “Figure It Out: Improve the Frontier of Reasoning with Active Visual Thinking”

SpatialTree: How Spatial Abilities Branch Out in MLLMs 

  • SpatialTree: How Spatial Abilities Branch Out in MLLMs [109.3]
    低レベル知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェント能力(L4)の4つのレベルに空間能力を整理する認知科学に着想を得た階層を導入する。 複雑な推論には役立ちますが、直感的な知覚を損ないます。 本稿では,不必要な熟考を抑制するシンプルな自己思考戦略を提案する。
    論文  参考訳(メタデータ)   (Tue, 23 Dec 2025 18:59:46 GMT)
  • 「Spatial abilities refer to the capacity to perceive, understand, reason about, and interact with 2D and 3D space, a long-standing topic in cognitive science [13, 45, 48]. In multimodal large language models (MLLMs), these abilities form the cornerstone of Spatial Intelligence (SI), yet remain challenging to study systematically due to their inherent complexity and broad scope [31, 63].」とのことでSpatial abilitiesを測るベンチマークを構築している。4レベルは下記の通り。
    • L1 Perception: This level focuses on native perception of space, capturing raw geometric and physical attributes such as size, distance, and motion, without relying on language or symbolic reasoning.
    • L2 Mental Mapping: This level maps spatial perception to language, grounding spatial concepts in linguistic semantics and forming language-structured spatial memory.
    • L3 Mental Simulation: This level supports internal reasoning about space, enabling mental simulation, including causal reasoning about dynamics, relational and geometric problem solving, and sequential planning for actions and navigation.
    • L4 Spatial Agent: This level executes actions in space, integrating perception, language, and reasoning to interact with the environment, interpret feedback, and complete long-horizon spatial tasks.
  • リポジトリはSpatialTree – How Spatial Abilities Branch Out in MLLMs、リーダーボードのモデル群が若干古い。。

EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs

  • EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs [53.4]
    EventBenchは8つのタスクメトリクスと大規模なイベントストリームデータセットを提供するベンチマークである。 我々は、GPT-5やGemini-2.5 Proのような最先端のクローズドソースモデル、Qwen2.5-VLやInternVL3といったオープンソースモデル、EventGPTのようなイベントベースのMLLMを評価した。
    論文  参考訳(メタデータ)   (Sun, 23 Nov 2025 13:39:01 GMT)
  • MLLMのイベントに対する評価(understanding (i.e., detailed understanding), recognition (i.e., action recognition, gesture recognition, and event OCR)など)ベンチマーク。
  • リポジトリはEventBench

Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents

  • VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.7]
    言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。 VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか? 我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。 エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
    論文  参考訳(メタデータ)   (Sun, 19 Oct 2025 16:05:07 GMT)
  • 「How can we effectively teach VLMs to build internal world models through explicit visual state reasoning?」、「Vision-language Model (VLM) agentic tasks are inherently complex due to the challenges in understanding visual states, which often are partial and noisy Observations, fundamentally reframing the problem from an Markov Decision Process (MDP) to a more challenging Partially Observable Markov Decision Process (POMDP).」というモチベーションからWorld Modelの構築を推進するためのフレームワークを提案。「To optimize an agent’s world model reasoning, we propose turn-level WorldModeling Reward for a dense turn-level reward to evaluate the accuracy of the agent’s internal state simulation against ground-truth; to solve the critical challenge of long-horizon credit assignment, we propose Bi-Level GAE to first computes the value of an entire turn’s reasoning before propagating that credit precisely to the individual tokens. Our VAGEN framework significantly enhances task performance and visual reasoning quality for VLM in agentic tasks.」
  • プロジェクトサイトはVAGEN – VLM Agent Training

Explain Before You Answer: A Survey on Compositional Visual Reasoning

  • Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.3]
    構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。 本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。 次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
    論文  参考訳(メタデータ)   (Sun, 24 Aug 2025 11:01:51 GMT)
  • Compositional visual reasoning に関するサーベイ。

LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model 

  • LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.7]
    LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。 テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。 その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
    論文  参考訳(メタデータ)   (Sun, 31 Aug 2025 03:08:02 GMT)
  • 「experimental results across massive visual benchmarks demonstrate that critic training not only substantially enhances the critic capabilities of VLMs, but also improves their performance as a general policy across a wide range of visual understanding and reasoning tasks. This dual improvement enables LLaVA- Critic-R1 to outperform other visual reasoning models trained with in-domain policy training, establishing it」という報告。強い関連はあると思いつつ面白い挙動。
  • リポジトリはLLaVA-NeXT/llava-critic-r1 at main · LLaVA-VL/LLaVA-NeXT · GitHubLLaVA-NeXT/llava-critic-r1 at main · LLaVA-VL/LLaVA-NeXT · GitHub

Pixels, Patterns, but No Poetry: To See The World like Humans 

  • Pixels, Patterns, but No Poetry: To See The World like Humans [33.8]
    最先端のMLLMは、人間にとって簡単な私たちの知覚上のタスクに破滅的な失敗を示します。 この論文は、推論から知覚へと焦点を移す。
    論文  参考訳(メタデータ)   (Mon, 21 Jul 2025 21:50:16 GMT)
  • 人間だと直感的に理解可能な Turing Eye Test (TET)の提案。「Through four diagnostic tasks involving concealed text, 3D Captchas, Chinese character compositions, and color blind test charts, we demonstrated that state-of-the-art MLLMs exhibit catastrophic failures on perceptual tasks that humans solve intuitively.」とAIにはとけないものが多い。創作漢字コンテストの漢字を理解できるか興味深いところ(leakが怖いが…)。
  • プロジェクトサイトはPixels, Patterns, but no Poetry: To See the World like Humans

Docopilot: Improving Multimodal Models for Document-Level Understanding 

  • Docopilot: Improving Multimodal Models for Document-Level Understanding [87.6]
    マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。 このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。 データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
    論文  参考訳(メタデータ)   (Sat, 19 Jul 2025 16:03:34 GMT)
  • 大規模なマルチモーダルDocumentUnderstanding用データの構築とInternVL2ベースのモデル構築。「The proposed Docopilot-8B shows a notable improvement over baseline models [73], achieving a +19.9% accuracy gain compared to InternVL2-8B and surpassing InternVL2-26B with less than 31% of the inference latency. Additionally, Docopilot-2B uses fewer parameters (less than 10%) while exhibiting comparable performance to the 10× larger InternVL2-26B.」と性能向上。
  • リポジトリはOpenGVLab/Docopilot: [CVPR 2025] Docopilot: Improving Multimodal Models for Document-Level Understanding