- Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [66.6]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。 評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。 また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 7 Apr 2022 17:59:02 GMT)