Edit-A-Video: Single Video Editing with Object-Aware Consistency [21.0] 本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。 本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。 各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。 論文参考訳(メタデータ) (Thu, 23 Mar 2023 03:04:45 GMT)
テキストによる動画編集。「人間がギターを弾いているビデオ」+「“a bear is playing a guitar”」という入力で、ギターを弾いている人をクマに変更ができる。