- Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation [7.4]
医療ビデオモデルは、医療産業に大きな影響を与えることが期待されている。 3つの要素を組み込んだ医用ビデオジェネレータ(MedSora)を提案する。 テストと応用は、MedSoraが医療ビデオの生成において優れた視覚的品質を示すことを示している。
論文 参考訳(メタデータ) (Sun, 03 Nov 2024 17:57:00 GMT) - 医療用ビデオモデルの提案、アイコンの通りMambaベースの手法を採用しているのが面白い。
- プロジェクトサイトはMedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation
タグ: ビデオ合成
Text-Animator: Controllable Visual Text Video Generation
- Text-Animator: Controllable Visual Text Video Generation [149.9]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。 また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (Tue, 25 Jun 2024 17:59:41 GMT) - 文字が入ったアニメ動画を生成する研究、通常の位置制御とカメラの位置制御も可能とのこと。短い動画ではあるがテキストの保持が綺麗にできておりすごい。
- プロジェクトサイトはText-Animator (laulampaul.github.io)
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond
- Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.2]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している 本調査では,世界モデルの最新動向を包括的に調査する。 我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文 参考訳(メタデータ) (Mon, 06 May 2024 14:37:07 GMT) - SoraがWorld simulatorとして機能しうるかは賛否が分かれているが、より広く(自動運転や自律エージェントなど)World simulatorになりうる生成系AIのサーベイ。「we expect world models to possess the ability of counterfactual reasoning, whereby outcomes are inferred through rational imagining.」はその通りで現時点ではまだ困難という印象を受けたが、実現できる未来はすぐだったりするのだろうか。
- リポジトリも参考になる GitHub – GigaAI-research/General-World-Models-Survey
Video as the New Language for Real-World Decision Making
- Video as the New Language for Real-World Decision Making [100.7]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。 ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。 ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (Tue, 27 Feb 2024 02:05:29 GMT) - ビデオの合成を通して現実世界のタスクを解けるのでは?という論文。SORAとGemini-1.5 – arXiv最新論文の紹介 (devneko.jp)をみるとあながち未来の話ではないのかもしれない。OpenAIだけでなく、Google DeepMindも同じ見解なのかという意味でも興味深い。
- 「Challenges like hallucination and generalization notwithstanding, video generation models have the potential to become autonomous agents, planners, environment simulators, and compute engines, and to eventually serve as the artificial brain to think and act in the physical world.」という記載が印象的。
SORAとGemini-1.5
先週話題となったニュースにテキストからのビデオ生成モデルであるOpenAIのSORA、極めて長いテキストを扱えるGoogleのGemini 1.5がある。両発表とも技術が一段進化した感がある。
Reka(Reka Flash: An Efficient and Capable Multimodal Language Model – Reka AI)のようなチャレンジャーも出てきていてニュースが多い。
- Video generation models as world simulators
私たちはAIに、動作中の物理世界を理解し、シミュレートするように教えています。ビデオと画像の潜在コード上の時空間パッチを扱うトランスフォーマーアーキテクチャを活用しています。Soraは、視覚的品質とユーザのプロンプトへの固執を維持しながら、最大1分間のビデオを生成することができる。 - Sora (openai.com)
- Video generation models as world simulators (openai.com)
- 既存研究(例えばLumiere – arXiv最新論文の紹介 (devneko.jp)、Lumiere (lumiere-video.github.io)やMagicVideo-V2: Multi-Stage High-Aesthetic Video Generation (magicvideov2.github.io))もすごかったが、本件は生成可能な動画の長さと自然さでかなり進んでいる印象。
- Gemini 1.5: Unlocking multimodalunderstanding across millions of tokens ofcontext
Gemini 1.5 Proは、きめ細かい情報をリコールして推論できる計算効率の高いマルチモーダル混合モデルである。モダリティ間の長いコンテキスト検索タスクのほぼ完璧なリコールを実現する。Gemini 1.0 Ultraの最先端のパフォーマンスを、幅広いベンチマークで比較または上回る。 - 長文を扱える能力が高くTF-IDF での検索+re rankを行うパイプライン構成をとった場合を大きく超える性能。そして、旧Twitterでも紹介されていた「With only instructional materials (500 pages of linguistic documentation, a dictionary, and ≈ 400 parallel sentences) all provided in context, Gemini 1.5 Pro is capable of learning to translate from English to Kalamang, a language spoken by fewer than 200 speakers in western New Guinea in the east of Indonesian Papua2, and therefore almost no online presence.」が衝撃的。
- gemini_v1_5_report.pdf (storage.googleapis.com)
Vlogger
- Vlogger: Make Your Dream A Vlog [67.5]
Vloggerは、ユーザ記述のミニレベルビデオブログ(vlog)を生成する汎用AIシステムである。 Script, (2) Actor, (3) ShowMaker, (4) Voicer など,vlog のプロフェッショナルにとって重要な役割を果たすために,様々な基礎モデルを実行します。 Vloggerは、スクリプトとアクターのビデオコヒーレンスを失うことなく、オープンワールドの説明から5分以上のvlogを生成することができる。
論文 参考訳(メタデータ) (Wed, 17 Jan 2024 18:55:12 GMT) - ビデオ生成、デモもすごい
- リポジトリはzhuangshaobin/Vlogger: Make Your Dream A Vlog (github.com)
Lumiere
- Lumiere: A Space-Time Diffusion Model for Video Generation [67.6]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。 これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。 空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (Tue, 23 Jan 2024 18:05:25 GMT) - Twitterでも話題になったビデオ合成用の拡散モデルの提案。Space-Time U-Netを活用とのことでStable diffuionの素直な拡張なのだろうか。デモサイトのビデオが高画質でびっくり。Video Stylization、Cinemagraphs、Video Inpainting、すべてが高レベル。
- リポジトリはLumiere (lumiere-video.github.io)
ゼロショットなビデオ編集
- Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [78.2]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。 我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。 実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (Thu, 13 Apr 2023 07:34:11 GMT) - vid2vidというゼロショットでのビデオ編集、画像ではできていたが動画でしかもフレーム間の一貫性をもって編集ができているように見える
- GitHub – baaivision/vid2vid-zero: Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Modelsがリポジトリ、デモも存在Vid2vid Zero – a Hugging Face Space by BAAI
Dreamix
- Dreamix: Video Diffusion Models are General Video Editors [22.1]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。 一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (Thu, 2 Feb 2023 18:58:58 GMT) - ビデオに対してテキストで指示する事によるビデオ合成。デモを見るのが分かりやすいが、やっと画像で対してできるようになった感があることが動画に対して実現できている。また、画像→動画への変換も可能。
- デモなどはDreamix: Video Diffusion Models are General Video Editors (dreamix-video-editing.github.io)
- 論文中には「VDMs are computationally expensive」と書かれているが、最近の状況を考えると早期にクリアされそうな予感がする。
Text-to-Video without Text-Video Data
- Make-A-Video: Text-to-Video Generation without Text-Video Data [69.2]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。 我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。 空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (Thu, 29 Sep 2022 13:59:46 GMT)- テキストからの動画作成。text2imageモデルをベースに動画データ+教師無し学習で構築されたモデルで動画への補間を行っているよう
- プロジェクトサイトはhttps://make-a-video.github.io