動画生成 – arXiv最新論文の紹介

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models [15.7]
PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。 PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 15:51:12 GMT)
入力画像＋テキストからのアニメーション生成。アニメ中の破綻が少ない。
リポジトリはPIA: Personalized Image Animator (pi-animator.github.io)、デモもある。

Animate124: Animating One Image to 4D Dynamic Scene [108.2]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文参考訳（メタデータ） (Fri, 24 Nov 2023 16:47:05 GMT)
テキストでの動作記述＋画像から3D動画を作成するAnimate124 (Animate-one-image-to-4D)の提案。デモが凄い。
リポジトリはAnimate124: Animating One Image to 4D Dynamic Scene

A Survey on Video Diffusion Models [107.5]
AI生成コンテンツ(AIGC)の最近の波は、コンピュータビジョンでかなりの成功を収めている。その印象的な生成能力により、拡散モデルはGANと自動回帰変換器に基づく手法を徐々に置き換えており、画像生成や編集だけでなく、ビデオ関連研究の領域でも優れた性能を示す。本稿では,AIGC時代の映像拡散モデルについて概観する。
論文参考訳（メタデータ） (Mon, 16 Oct 2023 17:59:28 GMT)
ビデオの領域におけるDiffusionModelサーベイ、調査対象文献リストGitHub – ChenHsing/Awesome-Video-Diffusion-Models: [Arxiv] A Survey on Video Diffusion Modelsも参考になり、githubへのリンクなどもありがたい。

Imagen Video: High Definition Video Generation with Diffusion Models [64.1]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。 imagen videoは忠実度の高い動画を生成するだけでなく、さまざまな芸術スタイルで多様なビデオやテキストアニメーションを生成できる機能や、3dオブジェクト理解機能など、高度な制御性と世界の知識も備えている。
論文参考訳（メタデータ） (Wed, 5 Oct 2022 14:41:38 GMT)
- Imagenの動画版、低解像度・低フレームレートの動画から画像方向・時間方向の両面で超解像度化を行っている
- プロジェクトサイトはImagen Video (research.google)

Language-Guided Face Animation by Recurrent StyleGAN-based Generator [65.8]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文参考訳（メタデータ） (Thu, 11 Aug 2022 02:57:30 GMT)
- 入力させたテキストに沿って顔画像の表情等を変化させ、かつその変化の過程を違和感のない動画にするという研究。リポジトリの動画を見るのが分かりやすい。
- リポジトリはGitHub – TiankaiHang/language-guided-animation: Language-Guided Face Animation by Recurrent StyleGAN-based Generator

Kubric: A scalable dataset generator [73.8]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文参考訳（メタデータ）参考訳（全文） (Mon, 7 Mar 2022 18:13:59 GMT)
- PyBulletとBlenderをベースにして合成データを作成可能なフレームワーク。スケーラビリティも高いとのこと。とても便利そう。
- リポジトリはGitHub – google-research/kubric: A data generation pipeline for creating semi-realistic synthetic multi-object videos with rich annotations such as instance segmentation masks, depth maps, and optical flow.

GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions [45.6]
テキストから動画を自動レグレッシブに生成できるオープンドメインのテキスト・トゥ・ビデオプリトレーニングモデル「GODIVA」を提案する。 Howto100Mは、1億1600万以上のテキストビデオペアを含む大規模なテキストビデオデータセットです。実験により、GODIVAは下流のビデオ生成タスクでファインチューニングできるだけでなく、初見のテキストでも優れたゼロショット機能を持つことが示された。
論文参考訳（メタデータ） (Fri, 30 Apr 2021 07:40:35 GMT)
- テキストからの動画生成に関する論文。この手のモデルの高機能が進んでいる。ここでは（も）正しい評価は課題のよう。CLIPを用いた評価戦略に有効性が認められたのはBERT系手法を評価に用いる自然言語処理に似ている。ソースコード等は今後公開とのこと。