コンテンツへスキップ
- Vlogger: Make Your Dream A Vlog [67.5]
Vloggerは、ユーザ記述のミニレベルビデオブログ(vlog)を生成する汎用AIシステムである。 Script, (2) Actor, (3) ShowMaker, (4) Voicer など,vlog のプロフェッショナルにとって重要な役割を果たすために,様々な基礎モデルを実行します。 Vloggerは、スクリプトとアクターのビデオコヒーレンスを失うことなく、オープンワールドの説明から5分以上のvlogを生成することができる。
論文 参考訳(メタデータ) (Wed, 17 Jan 2024 18:55:12 GMT)
- ビデオ生成、デモもすごい
- リポジトリはzhuangshaobin/Vlogger: Make Your Dream A Vlog (github.com)
- Lumiere: A Space-Time Diffusion Model for Video Generation [67.6]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。 これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。 空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (Tue, 23 Jan 2024 18:05:25 GMT)
- Twitterでも話題になったビデオ合成用の拡散モデルの提案。Space-Time U-Netを活用とのことでStable diffuionの素直な拡張なのだろうか。デモサイトのビデオが高画質でびっくり。Video Stylization、Cinemagraphs、Video Inpainting、すべてが高レベル。
- リポジトリはLumiere (lumiere-video.github.io)
- Make-A-Video: Text-to-Video Generation without Text-Video Data [69.2]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。 我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。 空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (Thu, 29 Sep 2022 13:59:46 GMT)
- CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers [16.3]
大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。 CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。 CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
論文 参考訳(メタデータ) (Sun, 29 May 2022 19:02:15 GMT)
- Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.6]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。 評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。 また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 7 Apr 2022 17:59:02 GMT)
- Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.9]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。 本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。 我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (Fri, 4 Mar 2022 21:09:13 GMT)