- Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [78.2]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。 我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。 実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 07:34:11 GMT) - vid2vidというゼロショットでのビデオ編集、画像ではできていたが動画でしかもフレーム間の一貫性をもって編集ができているように見える
- GitHub – baaivision/vid2vid-zero: Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Modelsがリポジトリ、デモも存在Vid2vid Zero – a Hugging Face Space by BAAI
タグ: ビデオ合成
Dreamix
- Dreamix: Video Diffusion Models are General Video Editors [22.1]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。 一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (Thu, 2 Feb 2023 18:58:58 GMT) - ビデオに対してテキストで指示する事によるビデオ合成。デモを見るのが分かりやすいが、やっと画像で対してできるようになった感があることが動画に対して実現できている。また、画像→動画への変換も可能。
- デモなどはDreamix: Video Diffusion Models are General Video Editors (dreamix-video-editing.github.io)
- 論文中には「VDMs are computationally expensive」と書かれているが、最近の状況を考えると早期にクリアされそうな予感がする。
Text-to-Video without Text-Video Data
- Make-A-Video: Text-to-Video Generation without Text-Video Data [69.2]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。 我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。 空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (Thu, 29 Sep 2022 13:59:46 GMT)- テキストからの動画作成。text2imageモデルをベースに動画データ+教師無し学習で構築されたモデルで動画への補間を行っているよう
- プロジェクトサイトはhttps://make-a-video.github.io
CogVideo: テキストからのビデオ生成
- CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers [16.3]
大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。 CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。 CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
論文 参考訳(メタデータ) (Sun, 29 May 2022 19:02:15 GMT)- テキストからのビデオ生成、すでにクオリティが高い。「Nightfall in a metropolis.」では「夕日→日が沈む→暗くなる」という時間経過の概念がある動画も作れているのが凄い。
- リポジトリはGitHub – THUDM/CogVideo: Text-to-video generation.
VQGAN & Transformerによるビデオ生成
- Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.6]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。 評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。 また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 7 Apr 2022 17:59:02 GMT)
MMVID(MultiModal VIDeo generator): マルチモーダルな情報を使ったビデオ合成
- Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.9]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。 本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。 我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (Fri, 4 Mar 2022 21:09:13 GMT)- テキスト情報、画像、セグメンテーション情報などマルチモーダルな情報を活用したビデオ合成。プロジェクトサイトの動画を見るとよくできていてびっくりする。
- プロジェクトサイトはShow Me What and Tell Me How: Video Synthesis via Multimodal Conditioning (snap-research.github.io)、リポジトリはGitHub – snap-research/MMVID: [CVPR 2022] Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning