コンテンツへスキップ
- Animate124: Animating One Image to 4D Dynamic Scene [108.2]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。 提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文 参考訳(メタデータ) (Fri, 24 Nov 2023 16:47:05 GMT)
- テキストでの動作記述+画像から3D動画を作成するAnimate124 (Animate-one-image-to-4D)の提案。デモが凄い。
- リポジトリはAnimate124: Animating One Image to 4D Dynamic Scene
- Deep Generative Models on 3D Representations: A Survey [31.8]
変分オートエンコーダ(VAE)やGAN(Generative Adversarial Network)などの深層生成モデルは、2次元画像合成において大きな進歩を遂げている。本質的に効率的な表現(ピクセルグリッド)を持つ2D画像とは異なり、3Dデータを表現することははるかに多くの課題に直面する可能性がある。
論文 参考訳(メタデータ) (Thu, 27 Oct 2022 17:59:50 GMT)- point cloud、mesh、voxel grid 等をアウトプットとする、3次元データ生成モデルのサーベイ
- State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [101.0]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。 本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (Thu, 27 Oct 2022 17:59:53 GMT)
- DreamFusion: Text-to-3D using 2D Diffusion [52.5]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。 本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。 提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (Thu, 29 Sep 2022 17:50:40 GMT)
- 3D Vision with Transformers: A Survey [114.9]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。 本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。 我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (Mon, 8 Aug 2022 17:59:11 GMT)