３D – arXiv最新論文の紹介

SynCity: Training-Free Generation of 3D Worlds

SynCity: Training-Free Generation of 3D Worlds [107.7]
テキスト記述から3次元世界を生成するためのトレーニング不要かつ最適化不要なアプローチであるSynCityを提案する。 3Dと2Dのジェネレータが組み合わさって、拡大するシーンを生成する方法を示す。
論文参考訳（メタデータ） (Thu, 20 Mar 2025 17:59:40 GMT)
どこかで聞いたことのあるような論文タイトル。色々とうまく組み合わせている印象の手法だが、作例が面白い。
リポジトリはSynCity: Training-Free Generation of 3D Worlds

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving

Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.1]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。 Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文参考訳（メタデータ） (Mon, 09 Dec 2024 18:58:03 GMT)
プロジェクトサイトはDriv3R、リポジトリはGitHub – Barrybarry-Smith/Driv3R: Official Implementation of Driv3R

OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction

OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction [54.7]
295個の異なる材料からなる1001個のオブジェクトからなるOpenMaterialデータセットを紹介した。 OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。これは、多様で挑戦的な材料を持つオブジェクト上で、既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットである。
論文参考訳（メタデータ） (Thu, 13 Jun 2024 07:46:17 GMT)
複雑な材料特性（光の反射特性や透過特性など）に対する3D reconstructionデータセット
リポジトリはOpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction (christy61.github.io)

Animate124

Animate124: Animating One Image to 4D Dynamic Scene [108.2]
Animate124は、テキストによる動作記述を通じて、単一のWildイメージを3Dビデオにアニメーションする最初の作品である。提案手法は,既存のベースラインよりも大幅に進歩したことを示す。
論文参考訳（メタデータ） (Fri, 24 Nov 2023 16:47:05 GMT)
テキストでの動作記述＋画像から3D動画を作成するAnimate124 (Animate-one-image-to-4D)の提案。デモが凄い。
リポジトリはAnimate124: Animating One Image to 4D Dynamic Scene

Control3D

Control3D: Towards Controllable Text-to-3D Generation [107.8]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。 2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文参考訳（メタデータ） (Thu, 9 Nov 2023 15:50:32 GMT)
手書きスケッチ＋テキストによる3Dモデル生成、ControlNetの3D版な印象（「Specifically, a 2D conditioned diffusion model (ControlNet) is remoduled to optimize a Neural Radiance Field (NeRF), encouraging each view of the 3D scene to align with the given text prompt and hand-drawn sketch.」とのこと）

One-2-3-45 & DreamEditor

One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization [31.0]
単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題であるが、難しい課題である。本研究では,任意の物体の1つの画像を入力として取り込み,360度3次元テクスチャメッシュを1回のフィードフォワードパスで生成する手法を提案する。
論文参考訳（メタデータ） (Thu, 29 Jun 2023 13:28:16 GMT)
1枚の画像からの3D再構成、 Text to 3D Meshにもほんの少し言及がある
プロジェクトサイトはOne-2-3-45

DreamEditor: Text-Driven 3D Scene Editing with Neural Fields [118.1]
テキストプロンプトを用いてニューラルフィールドを編集できる新しいフレームワークを提案する。 DreamEditorは非常に現実的なテクスチャと幾何学を生成し、量的および質的な評価において、以前の作品を大きく上回っている。
論文参考訳（メタデータ） (Thu, 29 Jun 2023 10:38:04 GMT)
こちらはテキストを用いた3Dモデルの編集

Infinigen

Infinite Photorealistic Worlds using Procedural Generation [135.1]
インフィニゲン(Infinigen)は、自然界のフォトリアリスティックな3Dシーンのプロシージャジェネレータである。形状からテクスチャに至るまで、すべての資産はランダム化された数学的ルールによってゼロから生成される。
論文参考訳（メタデータ） (Mon, 26 Jun 2023 17:20:37 GMT)
美しい３Dシーンのジェネレータ。Deepでぽん的なアプローチではない。Real geometry、OSSと凄いソフトウェア。
プロジェクトサイトはHome | Infinigen、リポジトリはGitHub – princeton-vl/infinigen: Infinite Photorealistic Worlds using Procedural Generation

Deep Generative Models on 3D Representations: A Survey

Deep Generative Models on 3D Representations: A Survey [31.8]
変分オートエンコーダ(VAE)やGAN(Generative Adversarial Network)などの深層生成モデルは、2次元画像合成において大きな進歩を遂げている。本質的に効率的な表現(ピクセルグリッド)を持つ2D画像とは異なり、3Dデータを表現することははるかに多くの課題に直面する可能性がある。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 17:59:50 GMT)
- point cloud、mesh、voxel grid 等をアウトプットとする、3次元データ生成モデルのサーベイ

State of the Art in Dense Monocular Non-Rigid 3D Reconstruction [101.0]
モノクル2D画像から変形可能なシーン(または非剛体)の3D再構成は、コンピュータビジョンとグラフィックスの長年、活発に研究されてきた領域である。本研究は,モノクラー映像やモノクラービューの集合から,様々な変形可能な物体や複合シーンを高密度に非剛性で再現するための最先端の手法に焦点を当てる。
論文参考訳（メタデータ） (Thu, 27 Oct 2022 17:59:53 GMT)

DreamFusion

DreamFusion: Text-to-3D using 2D Diffusion [52.5]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文参考訳（メタデータ） (Thu, 29 Sep 2022 17:50:40 GMT)
- テキストからの3Dモデルの生成、Imagen（64×64） + NeRF like modelとのこと
- DreamFusion: Text-to-3D using 2D Diffusion (dreamfusion3d.github.io)

3D処理におけるVision transformerのサーベイ

3D Vision with Transformers: A Survey [114.9]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文参考訳（メタデータ） (Mon, 8 Aug 2022 17:59:11 GMT)
- 3D処理でも非常に流行しているtransformerのサーベイ100以上の手法が調査対象とのことで非常に幅広い。
- プロジェクトサイトはGitHub – lahoud/3d-vision-transformers: A list of 3D computer vision papers with Transformers

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31