CogVideo: テキストからのビデオ生成

  • CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers [16.3]
    大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。 CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。 CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
    論文  参考訳(メタデータ)   (Sun, 29 May 2022 19:02:15 GMT)
    • テキストからのビデオ生成、すでにクオリティが高い。「Nightfall in a metropolis.」では「夕日→日が沈む→暗くなる」という時間経過の概念がある動画も作れているのが凄い。
    • リポジトリはGitHub – THUDM/CogVideo: Text-to-video generation.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です