- V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning [43.2]
現代のAIにとっての大きな課題は、世界を理解し、主に観察によって行動することを学ぶことである。 本稿では,インターネット規模のビデオデータと少量のインタラクションデータを組み合わせた自己教師型アプローチについて検討する。 我々は物理世界で理解し、予測し、計画できるモデルを開発する。
論文 参考訳(メタデータ) (Wed, 11 Jun 2025 17:57:09 GMT) - 「we show that joint-embedding predictive architectures learning from videos can be used to build a world model that enables understanding the physical world, predicting future states, and effectively planning in new situations; this is achieved by leveraging internet-scale video and a small amount of interaction data.」とのこと。
- プロジェクトサイトはIntroducing the V-JEPA 2 world model and new benchmarks for physical reasoning、リポジトリはGitHub – facebookresearch/vjepa2: PyTorch code and models for VJEPA2 self-supervised learning from video.
タグ: ビデオ合成
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes
- Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes [26.7]
Ctrl-Crashはコントロール可能なカークラッシュビデオ生成モデルで、バウンディングボックス、クラッシュタイプ、初期画像フレームなどの信号を条件付けする。 提案手法は,入力の微妙な変化がクラッシュ結果の劇的な変化を引き起こすような,現実的なシナリオ生成を可能にする。
論文 参考訳(メタデータ) (Fri, 30 May 2025 21:04:38 GMT) - 「we introduce Ctrl-Crash, a controllable video diffusion framework for generating realistic crash videos from a single initial frame. Our method operates with inputs and outputs in pixel space, as opposed to using computer graphics primitives and explicit models of physics.」
- 様々なシチュエーションを考える上では有効そうには思う
- リポジトリはCtrl-Crash: Controllable Diffusion for Realistic Car Crashes
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k
- Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k [39.5]
商用レベルのビデオ生成モデルであるOpen-Sora 2.0について紹介する。 トップパフォーマンスビデオ生成モデルのトレーニングコストは,高い制御性を有することを示す。 Open-Sora 2.0を完全にオープンソースにすることで、先進的なビデオ生成技術へのアクセスを民主化することを目指している。
論文 参考訳(メタデータ) (Wed, 12 Mar 2025 05:00:07 GMT) - その名の通りオープンなビデオ生成モデルの提案。
- リポジトリはGitHub – hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All
GameFactory: Creating New Games with Generative Interactive Videos
- GameFactory: Creating New Games with Generative Interactive Videos [33.0]
本稿では,ゲームビデオ生成におけるシーンの一般化を探求するフレームワークであるGameFactoryを紹介する。 オープンドメインの一般化を保ちつつ,アクション制御からゲームスタイルの学習を分離する多段階学習戦略を提案する。 フレームワークを拡張して、自動回帰アクション制御可能なゲームビデオ生成を可能にし、無制限のインタラクティブなゲームビデオの作成を可能にします。
論文 参考訳(メタデータ) (Tue, 14 Jan 2025 18:57:21 GMT) - 「By learning action control from a small-scale first-person Minecraft dataset, this framework can transfer these control abilities to open-domain videos, ultimately allowing the creation of new games within open-domain scenes.」というフレームワーク提案。移動などの操作を反映した動画生成ができるのは面白いのと、これが転送可能ということはある程度モデルの中にその知識がありそうでそちらも興味深い。
- リポジトリはGameFactory
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models
- VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.6]
VBenchは、”ビデオ生成品質”を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。 我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (Wed, 20 Nov 2024 17:54:41 GMT) - Video generationのためのベンチマーク
- リポジトリはGitHub – Vchitect/VBench: [CVPR2024 Highlight] VBench – We Evaluate Video Generation、リーダーボードも公開されているVBench Leaderboard – a Hugging Face Space by Vchitect
MedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation
- Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation [7.4]
医療ビデオモデルは、医療産業に大きな影響を与えることが期待されている。 3つの要素を組み込んだ医用ビデオジェネレータ(MedSora)を提案する。 テストと応用は、MedSoraが医療ビデオの生成において優れた視覚的品質を示すことを示している。
論文 参考訳(メタデータ) (Sun, 03 Nov 2024 17:57:00 GMT) - 医療用ビデオモデルの提案、アイコンの通りMambaベースの手法を採用しているのが面白い。
- プロジェクトサイトはMedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation
Text-Animator: Controllable Visual Text Video Generation
- Text-Animator: Controllable Visual Text Video Generation [149.9]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。 また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (Tue, 25 Jun 2024 17:59:41 GMT) - 文字が入ったアニメ動画を生成する研究、通常の位置制御とカメラの位置制御も可能とのこと。短い動画ではあるがテキストの保持が綺麗にできておりすごい。
- プロジェクトサイトはText-Animator (laulampaul.github.io)
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond
- Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.2]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している 本調査では,世界モデルの最新動向を包括的に調査する。 我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (Mon, 06 May 2024 14:37:07 GMT) - SoraがWorld simulatorとして機能しうるかは賛否が分かれているが、より広く(自動運転や自律エージェントなど)World simulatorになりうる生成系AIのサーベイ。「we expect world models to possess the ability of counterfactual reasoning, whereby outcomes are inferred through rational imagining.」はその通りで現時点ではまだ困難という印象を受けたが、実現できる未来はすぐだったりするのだろうか。
- リポジトリも参考になる GitHub – GigaAI-research/General-World-Models-Survey
Video as the New Language for Real-World Decision Making
- Video as the New Language for Real-World Decision Making [100.7]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。 ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。 ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (Tue, 27 Feb 2024 02:05:29 GMT) - ビデオの合成を通して現実世界のタスクを解けるのでは?という論文。SORAとGemini-1.5 – arXiv最新論文の紹介 (devneko.jp)をみるとあながち未来の話ではないのかもしれない。OpenAIだけでなく、Google DeepMindも同じ見解なのかという意味でも興味深い。
- 「Challenges like hallucination and generalization notwithstanding, video generation models have the potential to become autonomous agents, planners, environment simulators, and compute engines, and to eventually serve as the artificial brain to think and act in the physical world.」という記載が印象的。
SORAとGemini-1.5
先週話題となったニュースにテキストからのビデオ生成モデルであるOpenAIのSORA、極めて長いテキストを扱えるGoogleのGemini 1.5がある。両発表とも技術が一段進化した感がある。
Reka(Reka Flash: An Efficient and Capable Multimodal Language Model – Reka AI)のようなチャレンジャーも出てきていてニュースが多い。
- Video generation models as world simulators
私たちはAIに、動作中の物理世界を理解し、シミュレートするように教えています。ビデオと画像の潜在コード上の時空間パッチを扱うトランスフォーマーアーキテクチャを活用しています。Soraは、視覚的品質とユーザのプロンプトへの固執を維持しながら、最大1分間のビデオを生成することができる。 - Sora (openai.com)
- Video generation models as world simulators (openai.com)
- 既存研究(例えばLumiere – arXiv最新論文の紹介 (devneko.jp)、Lumiere (lumiere-video.github.io)やMagicVideo-V2: Multi-Stage High-Aesthetic Video Generation (magicvideov2.github.io))もすごかったが、本件は生成可能な動画の長さと自然さでかなり進んでいる印象。
- Gemini 1.5: Unlocking multimodalunderstanding across millions of tokens ofcontext
Gemini 1.5 Proは、きめ細かい情報をリコールして推論できる計算効率の高いマルチモーダル混合モデルである。モダリティ間の長いコンテキスト検索タスクのほぼ完璧なリコールを実現する。Gemini 1.0 Ultraの最先端のパフォーマンスを、幅広いベンチマークで比較または上回る。 - 長文を扱える能力が高くTF-IDF での検索+re rankを行うパイプライン構成をとった場合を大きく超える性能。そして、旧Twitterでも紹介されていた「With only instructional materials (500 pages of linguistic documentation, a dictionary, and ≈ 400 parallel sentences) all provided in context, Gemini 1.5 Pro is capable of learning to translate from English to Kalamang, a language spoken by fewer than 200 speakers in western New Guinea in the east of Indonesian Papua2, and therefore almost no online presence.」が衝撃的。
- gemini_v1_5_report.pdf (storage.googleapis.com)