JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation [108.2] 本稿では,JAV(Joint Audio-Video)理解と生成のための,最初の統合マルチモーダル言語モデル(MLLM)であるJavisGについて述べる。 JavisG は Encoder-LLM-decoder アーキテクチャを採用し、SyncFusion モジュールを時時空間の大規模なオーディオビデオ融合用に備えている。 JAVPTの理解と生成ベンチマークの実験は、JavisGPTが既存のMLより優れていることを示している。 論文参考訳(メタデータ) (Sun, 28 Dec 2025 12:25:43 GMT)
「JavisGPT adopts an encoder-LLM-decoder architecture (ref. Fig 2), with Qwen2.5 [88] as the LLM backbone. The visual encoder is inherited from Qwen2.5-VL [5], and the audio encoder is based on BEATs [10]. Audio and video features, along with user prompts and learnable JavisQuery tokens, are passed to the LLM. To enable fine-grained spatiotemporal alignment, we propose a dedicated SyncFusion module that fuses audio and video representations into synchronized SyncAV tokens for unified comprehension. At the output stage, the LLM generates textual responses along with JavisCond tokens, which encode contextual semantics and serve as conditioning inputs for a pretrained JAV-DiT generator [40]. We choose JavisDiT for its generation quality and flexibility, and incorporate hierarchical JavisQueries to provide spatiotemporal priors, further enhancing synchronization in audio-video generation.」という設計のマルチモーダルモデル。