MMGR: Multi-Modal Generative Reasoning 

  • MMGR: Multi-Modal Generative Reasoning [97.4]
    本稿では,5つの推論能力に基づく基本的評価フレームワークMMGRを紹介する。 MMGRは、抽象推論(Abstract Reasoning)、体操ナビゲーション(Embodied Navigation)、物理コモンセンス(Physical Commonsense)の3つの領域にわたる生成的推論を評価する。 主要映像モデル(Veo-3, Sora-2, Wan-2.2)と画像モデル(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)をベンチマークする。
    論文  参考訳(メタデータ)   (Wed, 17 Dec 2025 18:42:37 GMT)
  • 「We argue that for video generation to evolve from mere image animation to genuine world modeling (Ha & Schmidhuber, 2018; LeCun, 2022), models must acquire foundational reasoning capabilities akin to human intuitive physics and cognition. Moving beyond superficial fidelity (Huang et al , 2024; Liu et al , 2024b), we propose a formal evaluation framework asking: Can a video model reason about the physical and logical constraints of the content it generates? Drawing on theories of core knowledge and cognitive development (Spelke & Kinzler, 2007; Lake et al , 2017), we posit that robust world simulation rests on five complementary pillars of reasoning:」とのこと。5つは下記の通り。
    • Physical Reasoning
    • Logical Reasoning
    • 3D Spatial Reasoning
    • 2D Spatial Reasoning
    •  Temporal Reasoning
  • リポジトリはZefan-Cai/MMGR · GitHub

LongVie 2: Multimodal Controllable Ultra-Long Video World Model 

  • LongVie 2: Multimodal Controllable Ultra-Long Video World Model [94.9]
    LongVie 2はエンドツーエンドの自動回帰フレームワークで、3段階でトレーニングされている。 LongVie 2は、長距離制御性、時間的コヒーレンス、視覚的忠実さにおいて最先端の性能を達成する。
    論文  参考訳(メタデータ)   (Mon, 15 Dec 2025 17:59:58 GMT)
  • 「LongVie 2 achieves state-of-the-art performance in controllable long video generation and can autoregressively synthesize high-quality videos lasting up to 3–5 minutes, marking a significant step toward video world modeling.」とのこと
  • プロジェクトサイトはLongVie 2

MagicWorld: Interactive Geometry-driven Video World Exploration 

  • MagicWorld: Interactive Geometry-driven Video World Exploration [30.5]
    我々は、3次元幾何学的先行と歴史的検索を統合したインタラクティブなビデオワールドモデルMagicWorldを提案する。 本稿では,Action-Guided 3D Geometry Module (AG3D)を紹介した。 さらに、生成時に関連する履歴フレームを検索し、条件付き信号として注入するHistory Cache Retrieval (HCR) 機構を提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Nov 2025 08:41:28 GMT)
  • ユーザアクション可能なビデオ生成モデル
  • リポジトリはMagicWorld: Interactive Geometry-driven Video World Exploration

Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

  • Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark [124.0]
    我々は、ビデオモデルがゼロショット推論器として機能する準備が整っているかどうかを実証研究する。 私たちは、人気の高いVeo-3に注力しています。 我々は,空間的,幾何学的,物理的,時間的,具体的論理を含む12次元にわたる推論行動を評価する。
    論文  参考訳(メタデータ)   (Thu, 30 Oct 2025 17:59:55 GMT)
  • Video models are zero-shot learners and reasoners – arXiv最新論文の紹介」という主張もあるが、異なるチームによる論文。「Our findings reveal that while current video models demonstrate promising reasoning patterns on short-horizon spatial coherence, fine-grained grounding, and locally consistent dynamics, they remain limited in long-horizon causal reasoning, strict geometric constraints, and abstract logic. Overall, they are not yet reliable as standalone zero-shot reasoners, but exhibit encouraging signs as complementary visual engines alongside dedicated reasoning models.」とのことで可能性を感じる結果ではある。
  • プロジェクトサイトはAre Video Models Ready as Zero-Shot Reasoners?

Sora 2, Claude Sonnet 4.5, GLM-4.6, DeepSeek v3.2-exp, HunyuanImage 3.0

先週の大きなニュースはOpenAIによるSora 2.0の発表だった(Sora 2 is here | OpenAI)。ビデオ生成モデルには様々なタスクを解ける可能性(Video models are zero-shot learners and reasoners – arXiv最新論文の紹介)やWorld modelとしての可能性(V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning – arXiv最新論文の紹介SimVS: Simulating World Inconsistencies for Robust View Synthesis  – arXiv最新論文の紹介How Far is Video Generation from World Model: A Physical Law Perspective – arXiv最新論文の紹介など)が指摘されていてニュースリリースの中にも言及がある。

AnthropicのClaude Sonnet 4.5も発表されている(Introducing Claude Sonnet 4.5 \ Anthropic)。着実な進化と言えそうな結果。

GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilitiesdeepseek-ai/DeepSeek-V3.2-Exp · Hugging Faceなど公開モデルのアップデートも要注目。GitHub – Tencent-Hunyuan/HunyuanImage-3.0: HunyuanImage-3.0: A Powerful Native Multimodal Model for Image GenerationについてはarXivに論文が公開されていた。

  • HunyuanImage 3.0 Technical Report [108.4]
    HunyuanImage 3.0は、自動回帰フレームワーク内でのマルチモーダル理解と生成を統合する、ネイティブなマルチモーダルモデルである。 HunyuanImage 3.0は、これまでで最大かつ最も強力なオープンソース画像生成モデルである。
    論文  参考訳(メタデータ)   (Sun, 28 Sep 2025 16:14:10 GMT)
  • 非常に強力な画像系公開モデル
  • モデルはtencent/HunyuanImage-3.0 · Hugging Face

Video models are zero-shot learners and reasoners

  • Video models are zero-shot learners and reasoners [33.7]
    Veo 3は、明示的にトレーニングされていないさまざまなタスクを解決できます。 Veoの創発的なゼロショット機能は、ビデオモデルが統一された一般的なビジョン基盤モデルへの道のりにあることを示している。
    論文  参考訳(メタデータ)   (Wed, 24 Sep 2025 17:17:27 GMT)
  • 「We demonstrate that Veo 3 can solve a broad variety of tasks it wasn’t explicitly trained for: segmenting objects, detecting edges, editing images, understanding physical properties, recognizing object affordances, simulating tool use, and more. 」、「Veo 3 shows emergent zero-shot perceptual abilities well beyond the training task. Just like LLMs replaced task-specific NLP models, video models will likely replace most bespoke models in computer vision—once they become sufficiently cheap and reliable.」という指摘。とても未来を感じると同時に直観的のは理解しがたい面もある。
  • リポジトリはVideo models are zero-shot learners and reasoners

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality 

  • A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality [108.9]
    ビデオ生成モデルは5~16秒間のビデオしか生成できないが、しばしば「ロングフォームビデオ」とラベル付けされる。 16秒を超えるビデオは、物語全体を通して一貫したキャラクターの外観とシーンレイアウトを維持するのに苦労する。 近年の研究では、複数のキャラクター、物語のコヒーレンス、高忠実度の詳細を特徴とする長編ビデオの制作が試みられている。
    論文  参考訳(メタデータ)   (Wed, 09 Jul 2025 18:20:33 GMT)
  • 一貫した長い動画を生成するための手法等のサーベイ

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

  • V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning [43.2]
    現代のAIにとっての大きな課題は、世界を理解し、主に観察によって行動することを学ぶことである。 本稿では,インターネット規模のビデオデータと少量のインタラクションデータを組み合わせた自己教師型アプローチについて検討する。 我々は物理世界で理解し、予測し、計画できるモデルを開発する。
    論文  参考訳(メタデータ)   (Wed, 11 Jun 2025 17:57:09 GMT)
  • 「we show that joint-embedding predictive architectures learning from videos can be used to build a world model that enables understanding the physical world, predicting future states, and effectively planning in new situations; this is achieved by leveraging internet-scale video and a small amount of interaction data.」とのこと。
  • プロジェクトサイトはIntroducing the V-JEPA 2 world model and new benchmarks for physical reasoning、リポジトリはGitHub – facebookresearch/vjepa2: PyTorch code and models for VJEPA2 self-supervised learning from video.

Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes 

  • Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes [26.7]
    Ctrl-Crashはコントロール可能なカークラッシュビデオ生成モデルで、バウンディングボックス、クラッシュタイプ、初期画像フレームなどの信号を条件付けする。 提案手法は,入力の微妙な変化がクラッシュ結果の劇的な変化を引き起こすような,現実的なシナリオ生成を可能にする。
    論文  参考訳(メタデータ)   (Fri, 30 May 2025 21:04:38 GMT)
  • 「we introduce Ctrl-Crash, a controllable video diffusion framework for generating realistic crash videos from a single initial frame. Our method operates with inputs and outputs in pixel space, as opposed to using computer graphics primitives and explicit models of physics.」
  • 様々なシチュエーションを考える上では有効そうには思う
  • リポジトリはCtrl-Crash: Controllable Diffusion for Realistic Car Crashes

Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

  • Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k [39.5]
    商用レベルのビデオ生成モデルであるOpen-Sora 2.0について紹介する。 トップパフォーマンスビデオ生成モデルのトレーニングコストは,高い制御性を有することを示す。 Open-Sora 2.0を完全にオープンソースにすることで、先進的なビデオ生成技術へのアクセスを民主化することを目指している。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 05:00:07 GMT)
  • その名の通りオープンなビデオ生成モデルの提案。
  • リポジトリはGitHub – hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All