dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models 

  • dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models [40.0]
    Diffusion Multi-modal Large Language Models (dMLLMs) は画像生成と理解を統一する新しいアーキテクチャとして最近登場した。 提案するdMLLM-TTSは,2つの相補的スケーリング軸上で動作し,その全生成ポテンシャルを解放する新しいフレームワークである。 我々のフレームワークは線形探索の最大6倍の効率で生成品質を大幅に向上させる。
    論文  参考訳(メタデータ)   (Mon, 22 Dec 2025 14:31:58 GMT)
  • Diffusion Multi-modal Large Language Models (dMLLMs) におけるTest Time Scaling (TTS)手法の研究。「We present the Hierarchical Trajectory Search, which optimizes efficiency, achieving O(N +T) complexity, outperforming conventional linear search baseline with O(NT) complexity. • Superior Performance. The proposed TTS framework elevates dMLLMs to match state-of-the-art generation models, significantly boosting image quality.」と効果的・効率的な手法を提案とのこと。
  • リポジトリはGitHub – Alpha-VLLM/Lumina-DiMOO: Lumina-DiMOO – An Open-Sourced Multi-Modal Large Diffusion Language Model

MMGR: Multi-Modal Generative Reasoning 

  • MMGR: Multi-Modal Generative Reasoning [97.4]
    本稿では,5つの推論能力に基づく基本的評価フレームワークMMGRを紹介する。 MMGRは、抽象推論(Abstract Reasoning)、体操ナビゲーション(Embodied Navigation)、物理コモンセンス(Physical Commonsense)の3つの領域にわたる生成的推論を評価する。 主要映像モデル(Veo-3, Sora-2, Wan-2.2)と画像モデル(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)をベンチマークする。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 18:42:37 GMT)
  • 「We argue that for video generation to evolve from mere image animation to genuine world modeling (Ha & Schmidhuber, 2018; LeCun, 2022), models must acquire foundational reasoning capabilities akin to human intuitive physics and cognition. Moving beyond superficial fidelity (Huang et al , 2024; Liu et al , 2024b), we propose a formal evaluation framework asking: Can a video model reason about the physical and logical constraints of the content it generates? Drawing on theories of core knowledge and cognitive development (Spelke & Kinzler, 2007; Lake et al , 2017), we posit that robust world simulation rests on five complementary pillars of reasoning:」とのこと。5つは下記の通り。
    • Physical Reasoning
    • Logical Reasoning
    • 3D Spatial Reasoning
    • 2D Spatial Reasoning
    •  Temporal Reasoning
  • リポジトリはZefan-Cai/MMGR · GitHub

Using GUI Agent for Electronic Design Automation

  • Using GUI Agent for Electronic Design Automation [123.9]
    Graphical User Interface (GUI)エージェントは、スクリーンショットをアクションシーケンスにマッピングするエンドツーエンドパラダイムを採用する。 既存のGUIエージェントは、Microsoft WordやExcelのようなコモディティソフトウェアにのみ評価される。 この作業は、GUIエージェントを一般的なオフィス自動化から、専門的で高価値なエンジニアリングドメインまで拡張する。
    論文  参考訳(メタデータ)   (Fri, 12 Dec 2025 14:49:32 GMT)
  • 「We introduce GUI-EDA, the first large-scale benchmark for GUI Agents in EDA, including 5 physical fields, 5 industry-standard CAD softwares, rendered at multiple resolutions.」とそれに対応する「EDAgent, fusing MLLM comprehension with GUI Agent execution under self-reflective validation.」の提案。
  • リポジトリはhttps://github.com/aiben-ch/GUI-EDAとのこと