DreamFusion

  • DreamFusion: Text-to-3D using 2D Diffusion [52.5]
    テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。 本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。 提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 17:50:40 GMT)

Text-to-Video without Text-Video Data

  • Make-A-Video: Text-to-Video Generation without Text-Video Data [69.2]
    Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。 我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。 空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
    論文  参考訳(メタデータ)   (Thu, 29 Sep 2022 13:59:46 GMT)
    • テキストからの動画作成。text2imageモデルをベースに動画データ+教師無し学習で構築されたモデルで動画への補間を行っているよう
    • プロジェクトサイトはhttps://make-a-video.github.io

要約を対象としたContrastive Learningによるre-ranking