dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models
dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models [40.0] Diffusion Multi-modal Large Language Models (dMLLMs) は画像生成と理解を統一する新しいアーキテクチャとして最近登場した。 提案するdMLLM-TTSは,2つの相補的スケーリング軸上で動作し,その全生成ポテンシャルを解放する新しいフレームワークである。 我々のフレームワークは線形探索の最大6倍の効率で生成品質を大幅に向上させる。 論文参考訳(メタデータ) (Mon, 22 Dec 2025 14:31:58 GMT)
Diffusion Multi-modal Large Language Models (dMLLMs) におけるTest Time Scaling (TTS)手法の研究。「We present the Hierarchical Trajectory Search, which optimizes efficiency, achieving O(N +T) complexity, outperforming conventional linear search baseline with O(NT) complexity. • Superior Performance. The proposed TTS framework elevates dMLLMs to match state-of-the-art generation models, significantly boosting image quality.」と効果的・効率的な手法を提案とのこと。