- GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions [45.6]
テキストから動画を自動レグレッシブに生成できるオープンドメインのテキスト・トゥ・ビデオプリトレーニングモデル「GODIVA」を提案する。 Howto100Mは、1億1600万以上のテキストビデオペアを含む大規模なテキストビデオデータセットです。 実験により、GODIVAは下流のビデオ生成タスクでファインチューニングできるだけでなく、初見のテキストでも優れたゼロショット機能を持つことが示された。
論文 参考訳(メタデータ) (Fri, 30 Apr 2021 07:40:35 GMT)- テキストからの動画生成に関する論文。この手のモデルの高機能が進んでいる。ここでは(も)正しい評価は課題のよう。CLIPを用いた評価戦略に有効性が認められたのはBERT系手法を評価に用いる自然言語処理に似ている。ソースコード等は今後公開とのこと。