A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality 

  • A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality [108.9]
    ビデオ生成モデルは5~16秒間のビデオしか生成できないが、しばしば「ロングフォームビデオ」とラベル付けされる。 16秒を超えるビデオは、物語全体を通して一貫したキャラクターの外観とシーンレイアウトを維持するのに苦労する。 近年の研究では、複数のキャラクター、物語のコヒーレンス、高忠実度の詳細を特徴とする長編ビデオの制作が試みられている。
    論文  参考訳(メタデータ)   (Wed, 09 Jul 2025 18:20:33 GMT)
  • 一貫した長い動画を生成するための手法等のサーベイ

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

  • V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning [43.2]
    現代のAIにとっての大きな課題は、世界を理解し、主に観察によって行動することを学ぶことである。 本稿では,インターネット規模のビデオデータと少量のインタラクションデータを組み合わせた自己教師型アプローチについて検討する。 我々は物理世界で理解し、予測し、計画できるモデルを開発する。
    論文  参考訳(メタデータ)   (Wed, 11 Jun 2025 17:57:09 GMT)
  • 「we show that joint-embedding predictive architectures learning from videos can be used to build a world model that enables understanding the physical world, predicting future states, and effectively planning in new situations; this is achieved by leveraging internet-scale video and a small amount of interaction data.」とのこと。
  • プロジェクトサイトはIntroducing the V-JEPA 2 world model and new benchmarks for physical reasoning、リポジトリはGitHub – facebookresearch/vjepa2: PyTorch code and models for VJEPA2 self-supervised learning from video.

Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes 

  • Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes [26.7]
    Ctrl-Crashはコントロール可能なカークラッシュビデオ生成モデルで、バウンディングボックス、クラッシュタイプ、初期画像フレームなどの信号を条件付けする。 提案手法は,入力の微妙な変化がクラッシュ結果の劇的な変化を引き起こすような,現実的なシナリオ生成を可能にする。
    論文  参考訳(メタデータ)   (Fri, 30 May 2025 21:04:38 GMT)
  • 「we introduce Ctrl-Crash, a controllable video diffusion framework for generating realistic crash videos from a single initial frame. Our method operates with inputs and outputs in pixel space, as opposed to using computer graphics primitives and explicit models of physics.」
  • 様々なシチュエーションを考える上では有効そうには思う
  • リポジトリはCtrl-Crash: Controllable Diffusion for Realistic Car Crashes

Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

  • Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k [39.5]
    商用レベルのビデオ生成モデルであるOpen-Sora 2.0について紹介する。 トップパフォーマンスビデオ生成モデルのトレーニングコストは,高い制御性を有することを示す。 Open-Sora 2.0を完全にオープンソースにすることで、先進的なビデオ生成技術へのアクセスを民主化することを目指している。
    論文  参考訳(メタデータ)   (Wed, 12 Mar 2025 05:00:07 GMT)
  • その名の通りオープンなビデオ生成モデルの提案。
  • リポジトリはGitHub – hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All

GameFactory: Creating New Games with Generative Interactive Videos 

  • GameFactory: Creating New Games with Generative Interactive Videos [33.0]
    本稿では,ゲームビデオ生成におけるシーンの一般化を探求するフレームワークであるGameFactoryを紹介する。 オープンドメインの一般化を保ちつつ,アクション制御からゲームスタイルの学習を分離する多段階学習戦略を提案する。 フレームワークを拡張して、自動回帰アクション制御可能なゲームビデオ生成を可能にし、無制限のインタラクティブなゲームビデオの作成を可能にします。
    論文  参考訳(メタデータ)   (Tue, 14 Jan 2025 18:57:21 GMT)
  • 「By learning action control from a small-scale first-person Minecraft dataset, this framework can transfer these control abilities to open-domain videos, ultimately allowing the creation of new games within open-domain scenes.」というフレームワーク提案。移動などの操作を反映した動画生成ができるのは面白いのと、これが転送可能ということはある程度モデルの中にその知識がありそうでそちらも興味深い。
  • リポジトリはGameFactory

VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models 

MedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation

  • Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation [7.4]
    医療ビデオモデルは、医療産業に大きな影響を与えることが期待されている。 3つの要素を組み込んだ医用ビデオジェネレータ(MedSora)を提案する。 テストと応用は、MedSoraが医療ビデオの生成において優れた視覚的品質を示すことを示している。
    論文  参考訳(メタデータ)   (Sun, 03 Nov 2024 17:57:00 GMT)
  • 医療用ビデオモデルの提案、アイコンの通りMambaベースの手法を採用しているのが面白い。
  • プロジェクトサイトはMedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation

Text-Animator: Controllable Visual Text Video Generation

  • Text-Animator: Controllable Visual Text Video Generation [149.9]
    ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。 また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
    論文  参考訳(メタデータ)   (Tue, 25 Jun 2024 17:59:41 GMT)
  • 文字が入ったアニメ動画を生成する研究、通常の位置制御とカメラの位置制御も可能とのこと。短い動画ではあるがテキストの保持が綺麗にできておりすごい。
  • プロジェクトサイトはText-Animator (laulampaul.github.io)

Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

  • Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.2]
    一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している 本調査では,世界モデルの最新動向を包括的に調査する。 我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
    論文  参考訳(メタデータ)   (Mon, 06 May 2024 14:37:07 GMT)
  • SoraがWorld simulatorとして機能しうるかは賛否が分かれているが、より広く(自動運転や自律エージェントなど)World simulatorになりうる生成系AIのサーベイ。「we expect world models to possess the ability of counterfactual reasoning, whereby outcomes are inferred through rational imagining.」はその通りで現時点ではまだ困難という印象を受けたが、実現できる未来はすぐだったりするのだろうか。
  • リポジトリも参考になる GitHub – GigaAI-research/General-World-Models-Survey

Video as the New Language for Real-World Decision Making

  • Video as the New Language for Real-World Decision Making [100.7]
    ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。 ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。 ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
    論文  参考訳(メタデータ)   (Tue, 27 Feb 2024 02:05:29 GMT)
  • ビデオの合成を通して現実世界のタスクを解けるのでは?という論文。SORAとGemini-1.5 – arXiv最新論文の紹介 (devneko.jp)をみるとあながち未来の話ではないのかもしれない。OpenAIだけでなく、Google DeepMindも同じ見解なのかという意味でも興味深い。
  • 「Challenges like hallucination and generalization notwithstanding, video generation models have the potential to become autonomous agents, planners, environment simulators, and compute engines, and to eventually serve as the artificial brain to think and act in the physical world.」という記載が印象的。