3次元形状 – arXiv最新論文の紹介

RealFusion: 360

RealFusion: 360{\deg} Reconstruction of Any Object from a Single Image [98.5]
対象物の全360度写真モデルを1枚の画像から再構成する際の問題点を考察する。我々は拡散に基づく自己条件付き画像生成装置を取り、オブジェクトの新たなビューを夢見るように促すプロンプトを設計する。
論文参考訳（メタデータ） (Tue, 21 Feb 2023 13:25:35 GMT)
1枚の画像から360度の写真モデルを再構成、デモが凄い
2次元の学習済みDiffusion Modelを知識源として使っており、パイプライン構成が想像して作る人間っぽいと思ってしまった
リポジトリはRealFusion: 360° Reconstruction of Any Object from a Single Image (lukemelas.github.io)

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion [129.6]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。 2D画像のみから完全な3Dセマンティクスを出力できる。幾何学では20.0%、意味論では18.1%の相対的な改善で芸術の状態を上回ります。
論文参考訳（メタデータ） (Thu, 23 Feb 2023 18:59:36 GMT)
ボクセルが扱えるTransformer、一枚の画像から３次元形状の予測が可能で見えない部分についても一定の予測ができいるように見える。
リポジトリはGitHub – NVlabs/VoxFormer: A Cutting-edge Baseline for 3D Semantic Occupancy Prediction

Zero-Shot Text-Guided Object Generation with Dream Fields [111.1]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文参考訳（メタデータ）参考訳（全文） (Thu, 2 Dec 2021 17:53:55 GMT)
- テキストから3次元オブジェクト生成するモデルの提案。論文の通りNeRF(Neural Radiance Fields) とCLIPをつかってできそうな気はするものの、プロジェクトサイトにある結果を見ると非常に面白い。
- プロジェクトサイトはZero-Shot Text-Guided Object Generation with Dream Fields (ajayj.com)

DOVE: Learning Deformable 3D Objects by Watching Videos [89.4]
本研究では,鳥の単一2次元画像から3次元標準形状,変形,視点,テクスチャの予測を学習するDOVEを提案する。本手法は時間的に一貫した3次元形状と変形を再構成し,任意の視点から鳥をアニメーション化し再レンダリングする。
論文参考訳（メタデータ）参考訳（全文） (Thu, 22 Jul 2021 17:58:10 GMT)
2次元画像から鳥の3次元形状を得る研究でビデオクリップ（＋基本形状などの事前知識＋パイプライン）を用いてデータ量の問題を改善しようとするもの。デモのビデオが面白い。
Videoはhttps://dove3d.github.io/から確認可能。コードもリリース予定とのこと。