- Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.1]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。 我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。 Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文 参考訳(メタデータ) (Mon, 09 Dec 2024 18:58:03 GMT) - プロジェクトサイトはDriv3R、リポジトリはGitHub – Barrybarry-Smith/Driv3R: Official Implementation of Driv3R
タグ: 3D
OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction
- OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction [54.7]
295個の異なる材料からなる1001個のオブジェクトからなるOpenMaterialデータセットを紹介した。 OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。 これは、多様で挑戦的な材料を持つオブジェクト上で、既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットである。
論文 参考訳(メタデータ) (Thu, 13 Jun 2024 07:46:17 GMT) - 複雑な材料特性(光の反射特性や透過特性など)に対する3D reconstructionデータセット
- リポジトリはOpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction (christy61.github.io)
Animate124
- Animate124: Animating One Image to 4D Dynamic Scene [108.2]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。 提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文 参考訳(メタデータ) (Fri, 24 Nov 2023 16:47:05 GMT) - テキストでの動作記述+画像から3D動画を作成するAnimate124 (Animate-one-image-to-4D)の提案。デモが凄い。
- リポジトリはAnimate124: Animating One Image to 4D Dynamic Scene
Infinigen
- Infinite Photorealistic Worlds using Procedural Generation [135.1]
インフィニゲン(Infinigen)は、自然界のフォトリアリスティックな3Dシーンのプロシージャジェネレータである。 形状からテクスチャに至るまで、すべての資産はランダム化された数学的ルールによってゼロから生成される。
論文 参考訳(メタデータ) (Mon, 26 Jun 2023 17:20:37 GMT) - 美しい3Dシーンのジェネレータ。Deepでぽん的なアプローチではない。Real geometry、OSSと凄いソフトウェア。
- プロジェクトサイトはHome | Infinigen、リポジトリはGitHub – princeton-vl/infinigen: Infinite Photorealistic Worlds using Procedural Generation
Deep Generative Models on 3D Representations: A Survey
- Deep Generative Models on 3D Representations: A Survey [31.8]
変分オートエンコーダ(VAE)やGAN(Generative Adversarial Network)などの深層生成モデルは、2次元画像合成において大きな進歩を遂げている。本質的に効率的な表現(ピクセルグリッド)を持つ2D画像とは異なり、3Dデータを表現することははるかに多くの課題に直面する可能性がある。
論文 参考訳(メタデータ) (Thu, 27 Oct 2022 17:59:50 GMT)- point cloud、mesh、voxel grid 等をアウトプットとする、3次元データ生成モデルのサーベイ
- State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [101.0]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。 本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文 参考訳(メタデータ) (Thu, 27 Oct 2022 17:59:53 GMT)
DreamFusion
- DreamFusion: Text-to-3D using 2D Diffusion [52.5]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。 本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。 提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (Thu, 29 Sep 2022 17:50:40 GMT)- テキストからの3Dモデルの生成、Imagen(64×64) + NeRF like modelとのこと
- DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)
3D処理におけるVision transformerのサーベイ
- 3D Vision with Transformers: A Survey [114.9]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。 本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。 我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (Mon, 8 Aug 2022 17:59:11 GMT)- 3D処理でも非常に流行しているtransformerのサーベイ100以上の手法が調査対象とのことで非常に幅広い。
- プロジェクトサイトはGitHub – lahoud/3d-vision-transformers: A list of 3D computer vision papers with Transformers