動画生成 – arXiv最新論文の紹介

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality [108.9]
ビデオ生成モデルは5～16秒間のビデオしか生成できないが、しばしば「ロングフォームビデオ」とラベル付けされる。 16秒を超えるビデオは、物語全体を通して一貫したキャラクターの外観とシーンレイアウトを維持するのに苦労する。近年の研究では、複数のキャラクター、物語のコヒーレンス、高忠実度の詳細を特徴とする長編ビデオの制作が試みられている。
論文参考訳（メタデータ） (Wed, 09 Jul 2025 18:20:33 GMT)
一貫した長い動画を生成するための手法等のサーベイ

DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories

DreamGen: Unlocking Generalization in Robot Learning through Neural Trajectories [120.3]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文参考訳（メタデータ） (Mon, 19 May 2025 04:55:39 GMT)
「This pipeline is designed to be general-purpose across different robots, environments, and tasks. (1) We fine-tune video world models on a target robot to capture the dynamics and kinematics of the specific embodiment; (2) we prompt the model with pairs of initial frames and language instructions to generate large volumes of robot videos, capturing both familiar behaviors from fine-tuning and novel ones in unseen settings; (3) we then extract pseudo-actions using either a latent action model [13] or an inverse dynamics model (IDM)[14]; (4) finally, we use the resulting video-action sequence pairs, dubbed neural trajectories, for training downstream visuomotor policies.」と動画生成モデルを活用したデータ合成手法の提案。イメージトレーニングのようで面白い。
プロジェクトサイトはDreamGen

SimVS: Simulating World Inconsistencies for Robust View Synthesis

SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.8]
本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
論文参考訳（メタデータ） (Tue, 10 Dec 2024 17:35:12 GMT)
「Our approach augments existing multiview datasets with inconsistencies simulated by a video diffusion model and trains a multiview harmonization model to sample sets of consistent views of a scene conditioned on sparse inconsistent captures. We can then use existing 3D reconstruction and view synthesis techniques to synthesize novel viewpoints from these consistent images.」とのこと。面白いデータ拡張のアプローチでプロジェクトサイトを見るに効果も高いよう。
プロジェクトサイトはSimVS: Simulating World Inconsistencies for Robust View Synthesis

日本語版Gemma 2 2B, Liquid Foundation Models (LFMs), Meta Movie Gen, CulturalBench

先週の発表で気になったのはGoogleによる日本語版 Gemma 2の公開（Google Developers Japan: 日本語版 Gemma 2 2B を公開 (googleblog.com)）とLiquid AIによるLiquid Foundation Models (LFMs)の発表（Liquid Foundation Models: Our First Series of Generative AI Models）、Metaによる動画生成AI、Meta Movie Genの発表（Meta Movie Gen）だった。

１つ目は言語特化モデルの可能性を感じる小規模・高性能モデルである。「東京科学大学情報理工学院情報工学系の岡崎直観教授らの研究チームと協力し、日本におけるオープンモデルの開発支援、および、新しい技術の開拓への取り組みも進めます。」との記載もあり、日本語という言語だけでなく文化理解のような部分にも注目。先週でていたCultualBenchのようなベンチマーク構築の動きもさかん。

２つ目はGPT系アーキテクチャではないLLMとのこと。論文やテクニカルレポートが出ていないので何とも言えない部分があるが、状態空間モデルではなくAttentionを効率化するアプローチのように見える。長文における処理が大幅に効率化されているとのことで期待大。

最後はMetaによるテキストからの動画生成AIで単純な生成だけでなく、編集も可能、元の静止画も指定可能。「On text-to-video generation, we outperform prior state-of-the-art, including commercial systems such as Runway Gen3 (RunwayML, 2024), LumaLabs (LumaLabs, 2024), OpenAI Sora (OpenAI, 2024) on overall video quality」と他モデルよりも良い性能であるとのこと。
（10/19追記） arXivに論文が出ていたので追加。

CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.8]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文参考訳（メタデータ） (Thu, 03 Oct 2024 17:04:31 GMT)
45か国をカバーする文化的ベンチマーク
リポジトリはCulturalBench – a Hugging Face Space by kellycyy

Movie Gen: A Cast of Media Foundation Models [133.4]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文参考訳（メタデータ） (Thu, 17 Oct 2024 16:22:46 GMT)

LLMs Meet Multimodal Generation and Editing: A Survey

LLMs Meet Multimodal Generation and Editing: A Survey [89.8]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成について詳しく検討する。具体的には,本研究で活用されている手法とマルチモーダルデータセットの背景にある重要な技術要素を網羅的に検討する。最後に、AIの安全性の進歩について包括的に議論し、新興のアプリケーションと今後の展望について調査する。
論文参考訳（メタデータ） (Wed, 29 May 2024 17:59:20 GMT)
実用レベルのものが出ているマルチモーダルな生成に関するサーベイ。マルチモーダルエージェントまで含む広範な内容になっている。
論文リストはリポジトリになっている　GitHub – YingqingHe/Awesome-LLMs-meet-Multimodal-Generation: 🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models [15.7]
PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。 PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 15:51:12 GMT)
入力画像＋テキストからのアニメーション生成。アニメ中の破綻が少ない。
リポジトリはPIA: Personalized Image Animator (pi-animator.github.io)、デモもある。

Animate124

Animate124: Animating One Image to 4D Dynamic Scene [108.2]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文参考訳（メタデータ） (Fri, 24 Nov 2023 16:47:05 GMT)
テキストでの動作記述＋画像から3D動画を作成するAnimate124 (Animate-one-image-to-4D)の提案。デモが凄い。
リポジトリはAnimate124: Animating One Image to 4D Dynamic Scene

A Survey on Video Diffusion Model

A Survey on Video Diffusion Models [107.5]
AI生成コンテンツ(AIGC)の最近の波は、コンピュータビジョンでかなりの成功を収めている。その印象的な生成能力により、拡散モデルはGANと自動回帰変換器に基づく手法を徐々に置き換えており、画像生成や編集だけでなく、ビデオ関連研究の領域でも優れた性能を示す。本稿では,AIGC時代の映像拡散モデルについて概観する。
論文参考訳（メタデータ） (Mon, 16 Oct 2023 17:59:28 GMT)
ビデオの領域におけるDiffusionModelサーベイ、調査対象文献リストGitHub – ChenHsing/Awesome-Video-Diffusion-Models: [Arxiv] A Survey on Video Diffusion Modelsも参考になり、githubへのリンクなどもありがたい。

Imagen Video

Imagen Video: High Definition Video Generation with Diffusion Models [64.1]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。 imagen videoは忠実度の高い動画を生成するだけでなく、さまざまな芸術スタイルで多様なビデオやテキストアニメーションを生成できる機能や、3dオブジェクト理解機能など、高度な制御性と世界の知識も備えている。
論文参考訳（メタデータ） (Wed, 5 Oct 2022 14:41:38 GMT)
- Imagenの動画版、低解像度・低フレームレートの動画から画像方向・時間方向の両面で超解像度化を行っている
- プロジェクトサイトはImagen Video (research.google)

顔画像の表情変化動画の作成

Language-Guided Face Animation by Recurrent StyleGAN-based Generator [65.8]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文参考訳（メタデータ） (Thu, 11 Aug 2022 02:57:30 GMT)
- 入力させたテキストに沿って顔画像の表情等を変化させ、かつその変化の過程を違和感のない動画にするという研究。リポジトリの動画を見るのが分かりやすい。
- リポジトリはGitHub – TiankaiHang/language-guided-animation: Language-Guided Face Animation by Recurrent StyleGAN-based Generator

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31